SQLServer中处理重复数据:保留最新记录的两种方案

科技技术前后端 2024-06-17 14:39:18

大家在项目开发过程中,数据库几乎是每一个后端开发者必备的技能,并且经常会遇到对于数据表重复数据的处理,一般需要去除重复保留最新的记录。今天这里给大家分享两种种方案,希望对大家日常开发能够提供一些帮助!

首先准备测试的数据表

创建一个包含ID, OrderDate, ProductName以及可选的SequenceID的商品购买记录表Sales

CREATE TABLE Sales( ID INT IDENTITY(1,1) PRIMARY KEY, OrderDate DATE NOT NULL, ProductName VARCHAR(100) NOT NULL, SequenceID INT IDENTITY(1,1));-- 订单日期增加当前日期默认值约束ALTER TABLE Sales ADD DEFAULT (GETDATE()) FOR OrderDate;

准备一些测试数据

INSERT INTO Sales (OrderDate, ProductName)VALUES ('2023-04-01', '笔记本X1'), -- 示例商品A的最早购买日期 ('2023-04-07', '智能手机Y7'), ('2023-04-15', '平板电脑Z3'), ('2023-04-09', '笔记本X1'), -- 商品A的第二次购买,较早日期 ('2023-04-08', '智能手机Y7'), -- 商品B的第二次购买,较早日期 ('2023-04-20', '平板电脑Z3'), -- 商品C的第二次购买,较晚日期 ('2023-04-18', '笔记本X1'), -- 商品A的第三次购买,最新日期 ('2023-04-22', '智能手机Y7 Pro'), -- 新产品,不同型号 ('2023-04-25', '平板电脑Z3 Plus'), -- 新产品,不同型号 ('2023-04-24 14:30:00', '笔记本X1'), -- 同日但较早时间的重复记录 ('2023-04-24 15:45:00', '笔记本X1'); -- 同日但较晚时间的记录,应被视为最新

查询效果如下:

方案一. 使用ROW_NUMBER()函数删除重复项

ROW_NUMBER()函数是SQL Server中处理重复数据的强大工具之一,可以通过窗口函数来为每一组重复数据分配行号,然后保留每组数据中最新的一条记录。

示例SQL语句

假设有一个表Sales,包含ID, OrderDate, ProductName等字段,其中ID为主键,但ProductName和OrderDate上有重复数据,我们要保留每个产品的最新订单记录。

-- 查询不是最新的重复记录直接删除WITH CTE AS ( SELECT *, ROW_NUMBER() OVER(PARTITION BY ProductName ORDER BY OrderDate DESC) AS RowNum FROM Sales)DELETE FROM CTEWHERE RowNum > 1;-- 数据库不操作直接查询每一行不重复的最新记录WITH CTE AS ( SELECT *, ROW_NUMBER() OVER(PARTITION BY ProductName ORDER BY OrderDate DESC) AS RowNum FROM Sales)select * FROM CTEWHERE RowNum = 1;

执行效果如下:

SQL说明

PARTITION BY ProductName:按照ProductName对数据分组。

ORDER BY OrderDate DESC:在每个分组内按OrderDate降序排序,确保最新记录排在首位。

ROW_NUMBER():为每组内的记录分配一个行号,最新的记录行号为1。

删除重复记录:在CTE中删除RowNum大于1的记录,即除了每个分组最新的一条记录外,其余视为重复并删除。

直接查询:针对CTE筛选RowNum等于1的记录

方案二. 使用临时表的方式

第二种方法是使用临时表来筛选并保留最新记录。具体步骤如下:

创建临时表:首先,创建一个临时表,结构与原表相同,用于存储去重后的数据。

使用MERGE语句:通过MERGE语句将原表数据与临时表数据进行比较,保留每个唯一标识下的最新记录。

INSERT INTO #TempSalesSELECT ID, OrderDate, ProductNameFROM ( SELECT *, ROW_NUMBER() OVER(PARTITION BY ProductName ORDER BY OrderDate DESC) AS rn FROM Sales) tWHERE t.rn = 1;select * from #TempSales; -- 直接查询就是去重后保留最新记录的查询数据TRUNCATE TABLE Sales; -- 清空原表-- 重新插入临时表的数据给Sales。适用数据量不是特别大的情况INSERT INTO SalesSELECT * FROM #TempSales;DROP TABLE #TempSales; -- 删除临时表

说明

该方案先通过临时表存储每个产品的最新记录,然后清空原表,并将临时表中的数据重新插入原表,最终达到保留最新记录的目的。直接查询临时表就是所需要的数据。

0 阅读:0
科技技术前后端

科技技术前后端

感谢大家的关注