What is a promise in Javascript?

Question

Asked: 2020-12-25 15:16:52 +0800 CST 2020-12-25 15:16:52 +0800 CST 2020-12-25 15:16:52 +0800 CST

如何删除重复的行？

772

从相当大的表中删除重复行的最佳方法是什么？（例如超过 300,000 行）

当然，由于身份字段的存在，行不会是完美的重复ROWID

MyTable
-----------
RowID int not null identity(1,1) primary key,
Col1 varchar(20) not null,
Col2 varchar(2048) not null,
Col3 tinyint not null

原始问题：如何删除重复的行？

5 Answers

Voted

Juan Ruiz de Castilla · Answer 1 · 2020-12-25T16:11:22+08:00

首先，你需要决定你的口是心非的标准是什么。例如，我想测试第二列 (col1) 和第三列 (col2) 是否一起重复。

先考试日期

insert into MyTable
values (1,4533660,1,'COMPANY 1')
insert into MyTable
values (2,4533660,1,'COMPANY 1')
insert into MyTable
values (3,954189547,1,'COMPANY 2')
insert into MyTable
values (4,954189547,1,'COMPANY 2')
insert into MyTable
values (5,3652591,1,'COMPANY 3')
insert into MyTable
values (6,4201580,1,'COMPANY 4')
insert into MyTable
values (7,3337788,1,'COMPANY 5')

然后查询根据预定义的条件获取重复项。

Select 
Col1,
Col2,
COUNT(*)
from MyTable 
group by Col1,
Col2
HAVING COUNT(*) > 1

使用此查询，您可以轻松找到重复项，比查询本身更重要的是您使用的条件。

如果要消除重复数据（显然建议进行备份或将所有内容封装在事务中），可以执行以下操作：

DELETE A
FROM MyTable A 
INNER JOIN 
(
        SELECT ROW_NUMBER()OVER(PARTITION BY a.col1,
        a.Col2
        ORDER BY a.Col1,a.Col2)AS POS,
        a.rowID,
        a.Col3
        FROM MyTable A
        JOIN 
        (
            Select 
            Col1,
            Col2,
            COUNT(*) AS CONTADOR
            from MyTable 
            group by Col1,
            Col2
            HAVING COUNT(*) > 1
        ) TB
        ON A.col1 = TB.col1
        AND A.col2 = TB.col2
) TB_2
ON
a.ROWID = tb_2.ROWID 
and tb_2.pos > 1

Alvaro Montoro · Answer 2 · 2020-12-26T02:23:38+08:00

一种选择是使用临时表。为了它：

创建一个包含非重复行的临时表。
将所有非重复行插入到临时表中。
从原始表中删除所有记录。
将临时表转储到原始表中。
可选择删除临时表（它将在会话结束时自动删除）。

代码（我还没有测试过）会是这样的：

-- Los puntos 1 y 2 se podrían hacer en un solo paso: crear tabla temporal e insertar datos
INSERT INTO #tablaTemporal
SELECT DISTINCT Col1, Col2, Col3
FROM   MyTable;

-- Borrar todos los datos de la tabla original
DELETE FROM MyTable;

-- Volcar los datos no duplicados desde la tabla temporal a la original
INSERT INTO MyTable
SELECT * FROM #tablaTemporal;

Gerson Ubence Izaguirre Morale · Answer 3 · 2020-04-11T18:14:47+08:00

考虑到重复将发生在其他列中，并且有一个列，如果它不同 (RowID) 将仅使用 ROW_NUMBER 函数枚举，由除 RowID 之外的所有列分区并消除这些记录，在这种情况下编号> 1，我不知道这是否是最好的方法，但这是一个选择：

DELETE FROM MyTable
  WHERE RowID IN (SELECT RowID 
                    FROM (SELECT ROW_NUMBER() OVER(PARTITION BY Col1,Col2,Col3 ORDER BY (SELECT NULL)) AS R_ID,RowID,Col1,Col2,Col3
                            FROM MyTable) a
                   WHERE R_ID > 1)

下面的表格也有效，并且在没有区分记录的列的情况下很有用（在您指出的情况下，它具有 RowId）。但我不知道它是否取决于 SQL Server 的版本，它在 SQL Server 2012 中对我有用：

WITH FUENTE AS (
SELECT ROW_NUMBER() OVER(PARTITION BY Col1,Col2,Col3 ORDER BY (SELECT NULL)) AS R_ID,Col1,Col2,Col3
  FROM MyTable) DELETE FROM FUENTE WHERE R_ID > 1;

jkvalero · Answer 4 · 2020-10-05T05:31:50+08:00

朋友们好：我附上我开发的 Transact，无需额外的表格即可工作。我不会删除重复的行，但是可以将 Update 行更改为 Delete 行。

Declare @Fecha Date, @Liquidacion Int, @IdPersonal Int;
DECLARE CN CURSOR FOR
SELECT Fecha, Liquidacion, IdPersonal FROM Personal_tarjas
Where IdPersonal = 9
GROUP BY Fecha, Liquidacion, IdPersonal
HAVING count(*) > 1 And IdPersonal <> 0
OPEN CN;
    FETCH NEXT FROM CN Into @Fecha, @Liquidacion, @IdPersonal;
WHILE @@FETCH_STATUS = 0
  Begin
    WHILE (Select Count(*) From Personal_tarjas Where Fecha = @Fecha And 
Liquidacion = @Liquidacion And IdPersonal = @IdPersonal AND IdPersonal = 9) > 1
    BEGIN
        Update Top(1) Personal_tarjas Set IdPersonal = 0 Where Fecha = @Fecha 
And Liquidacion = @Liquidacion And IdPersonal = @IdPersonal AND IdPersonal = 9;
        If (Select Count(*) From Personal_tarjas Where Fecha = @Fecha And 
Liquidacion = @Liquidacion And IdPersonal = @IdPersonal AND IdPersonal = 9) <= 1
            BREAK;
        Else
            CONTINUE;
    END;
    FETCH NEXT FROM CN Into @Fecha, @Liquidacion, @IdPersonal;
  End
  CLOSE CN;
  DEALLOCATE CN;

我希望它为你服务。胡安卡洛斯

Danilator Filewalker · Answer 5 · 2020-08-12T12:02:24+08:00

        SELECT ROW_NUMBER() OVER (PARTITION BY A.[ID],A.[NRO_SS] ORDER BY A.[ID],A.[NRO_SS] ) AS POS,*
        INTO #DM_TdeInterFallasDrive FROM [dbImport].[dbo].[DM_TdeInterFallasDrive] A

        DELETE FROM #DM_TdeInterFallasDrive WHERE POS > 1

        DROP TABLE [dbImport].[dbo].[DM_TdeInterFallasDrive]
        
        SELECT * INTO [dbImport].[dbo].[DM_TdeInterFallasDrive] FROM #DM_TdeInterFallasDrive

        DROP TABLE #DM_TdeInterFallasDrive

        ALTER TABLE [dbImport].[dbo].[DM_TdeInterFallasDrive]
        DROP COLUMN POS
    
        SELECT * FROM [dbImport].[dbo].[DM_TdeInterFallasDrive]

如何删除重复的行？

HTML button that sends you to another page

Why do I get the error "Call to undefined function mysql_connect()"?

How to create an HTML button that works as a link?

How to separate a String in Java. How to use split()

Filter by dates in sql server

How to limit the number of decimal places in a double?

For each in JavaScript?

Position footer ALWAYS glued to the footer

Definitive Guide to Type Conversion in Java

How to properly compare Strings (and objects) in Java?