SQL Server表中重复数据的删除方法

2020-07-02 13:06:12

字体：大中小

来源：转载

供稿：网友

如果表中有多组完全不同的重复的 PK 值，则逐个删除它们会很费时间。在这种情况下，可使用下面的方法：

1.首先，运行上面的 GROUP BY 查询来确定有多少组重复的 PK 值及每组的重复数。

2.选择重复的键值放入临时表中。例如：

SELECT col1, col2, col3=count（*）

INTO holdkey

FROM t1

GROUP BY col1, col2

HAVING count（*） > 1

3.选择重复的行放入临时表中，以清除进程中的重复值。例如：

SELECT DISTINCT t1.*

INTO holddups

FROM t1, holdkey

WHERE t1.col1 = holdkey.col1

AND t1.col2 = holdkey.col2

4.此时，holddups 表应有唯一的 PK;但是，如果 t1 有重复的 PK 而行唯一（如上面的 SSN 示例），情况就不是这样了。请验证 holddups 中的各个键是否唯一，是否没有键重复而行唯一的情况。如果是这样，您必须停在该处，确定对于给定重复的键值，您希望保留哪些行。例如，以下查询：

SELECT col1, col2, count（*）

FROM holddups

GROUP BY col1, col2

应为各行返回计数 1.如果结果是 1,请继续执行下面的步骤 5.如果不是 1,则存在键重复而行唯一的情况，且需要您决定要保存哪些行。通常，这将需要舍弃行或为此行创建新的唯一的键值。为 holddups 表中每个此种重复 PK 执行这两个步骤之一。

5.从原始表中删除重复的行。例如：

DELETE t1

FROM t1, holdkey

WHERE t1.col1 = holdkey.col1

AND t1.col2 = holdkey.col2

6.将唯一行放回原始表中。例如：

INSERT t1 SELECT * FROM holddups