使用SQL语句去掉重复的记录【两种方法】-巨人网络通讯

使用SQL语句去掉重复的记录【两种方法】

海量数据（百万以上），其中有些全部字段都相同，有些部分字段相同，怎样高效去除重复？

如果要删除手机(mobilePhone)，电话(officePhone)，邮件(email)同时都相同的数据，以前一直使用这条语句进行去重：

delete from 表 where id not in  
(select max(id) from 表 group by mobilePhone,officePhone,email )  
or 
delete from 表 where id not in  
 (select min(id) from 表 group by mobilePhone,officePhone,email ) 

delete from 表 where id not in 
(select max(id) from 表 group by mobilePhone,officePhone,email ) 
or 
delete from 表 where id not in 
 (select min(id) from 表 group by mobilePhone,officePhone,email )

其中下面这条会稍快些。上面这条数据对于100万以内的数据效率还可以，重复数1/5的情况下几分钟到几十分钟不等，但是如果数据量达到300万以上，效率骤降，如果重复数据再多点的话，常常会几十小时跑不完，有时候会锁表跑一夜都跑不完。无奈只得重新寻找新的可行方法，今天终于有所收获：

//查询出唯一数据的ID,并把他们导入临时表tmp中  
select min(id) as mid into tmp from 表 group by mobilePhone,officePhone,email  
 //查询出去重后的数据并插入finally表中  
insert into finally select (除ID以外的字段) from customers_1 where id in (select mid from tmp) 

//查询出唯一数据的ID,并把他们导入临时表tmp中 
select min(id) as mid into tmp from 表 group by mobilePhone,officePhone,email 
 //查询出去重后的数据并插入finally表中 
insert into finally select (除ID以外的字段) from customers_1 where id in (select mid from tmp)

效率对比：用delete方法对500万数据去重（1/2重复）约4小时。4小时，很长的时间。

用临时表插入对500万数据去重（1/2重复）不到10分钟。

其实用删除方式是比较慢的，可能是边找边删除的原因吧，而使用临时表，可以将没有重复的数据ID选出来放在临时表里，再将表的信息按临时表的选择出来的ID，将它们找出来插入到新的表，然后将原表删除，这样就可以快速去重啦。

SQL语句去掉重复记录，获取重复记录

按照某几个字段名称查找表中存在这几个字段的重复数据并按照插入的时间先后进行删除，条件取决于order by 和row_num。

方法一按照多条件重复处理：

delete tmp from(  
select row_num = row_number() over(partition by 字段，字段 order by 时间 desc)  
 from 表 where 时间> getdate()-1  
 ) tmp  
 where row_num > 1 
delete tmp from( 
select row_num = row_number() over(partition by 字段，字段 order by 时间 desc) 
 from 表 where 时间> getdate()-1 
 ) tmp 
 where row_num > 1

方法二按照单一条件进行去重：

delete from 表 where 主键ID not in(  
select max(主键ID) from 表 group by 需要去重的字段 having count(需要去重的字段)>=1  
 ) 
delete from 表 where 主键ID not in( 
select max(主键ID) from 表 group by 需要去重的字段 having count(需要去重的字段)>=1 
 )

注意：为提高效率如上两个方法都可以使用临时表， not in 中的表可以先提取临时表#tmp，

然后采用not exists来执行，为避免数量过大，可批量用Top控制删除量

delete top(2) from 表  
   where not exists (select 主键ID  
 from #tmp where #tmp.主键ID=表.主键ID)

总结

以上所述是小编给大家介绍的使用SQL语句去掉重复的记录，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持！

您可能感兴趣的文章:

oracle sql 去重复记录不用distinct如何实现
MySQL中查询、删除重复记录的方法大全
SQL语句实现删除重复记录并只保留一条
MySql避免重复插入记录的几种方法
解析mysql中:单表distinct、多表group by查询去除重复记录
SQL重复记录查询的几种方法

上一篇：如何开启SqlServer 远程访问
下一篇：SQL Server 在分页获取数据的同时获取到总记录数

使用SQL语句去掉重复的记录【两种方法】

海量数据（百万以上），其中有些全部字段都相同，有些部分字段相同，怎样高效去除重复？如果要删除手机(mobilePhone)，电话(officePhone)，邮件(email)同时都相同的数据，以前一直使用这使用,SQL,语句,去掉,重复,...

400电话办理能给企业带来怎样的提升

400电话办理能给企业带来怎样的提升现在很多公司都开通了400电话，很多人可能会有这...

详解MySQL中的缓冲池（buffer pool）

Mysql 中数据是要落盘的，这点大家都知道。读写磁盘速度是很慢的，尤其和内存比起来...

怎样开通400电话号码大连400电话怎么办理

400电话停机是由多种因素造成的。一般情况下，400电话由正规代理到期时会通知企业续...

三五高频卡办理

三五高频卡办理，三五高频卡代理商,每天有效接通150内，呼出不限制。电销卡办理网是...

南京市好用168号段电销卡便宜

近日，广电联合华为率先完成全球5G700MHz频段2*30MHz大频宽端到端系统业务演示验证，为...

ai电话机器人有什么功能（ai人工智能电话机器人）

本篇文章给我们谈谈ai电话机器人有什么功用，以及ai人工智能电话机器人对应的知识点...

未能及时提出《兰纳姆法案》要求是拜耳的失误

本文由外文翻译而来，部分译文错误或者不通顺之处请谅解。上个月，第四巡回法院与...

巨推传媒告诉你为什么要做抖音代运营，来了解一下！！

现在抖音带货运营火爆，同时运营抖音的企业也不少，而且很多的企业也开始注重抖音...

手机来电秀标记电话显示公司店名怎么取消修改解除注销

●手机来电秀，大家应该都非常熟悉了，就是手机打出去或接听电话显示公司名称或店...

网上买流量卡被骗了怎么办，物联卡商家联系不上怎么投

现在的物联卡商家鱼龙浑杂，各种信息也是真假难辨，尤其是互联网上销售的更是如此...

温州电销卡办理靠谱

多家虚拟运营商国代卡商，全国资源丰富，外显11位手机号，接通率非常高，真正的白...

2021年5G终端消费趋势报告，2021年5G手机占比将达80%

4月20日，中国移动终端实验室日前发布《2020年第二期5G终端消费趋势报告》，根据报告...

论智能客服机器人的发展背景怎么样？

智能客服机器人是运用在售前服务资询、产品服务、售后服务维护、投诉处理等顾客服...

哪里办理400电话便宜400电话是免费的么?免哪些

400电话是一个先进的企业通信管理系统。一部400电话可以统一管理成千上万的固定电话...

云南不封卡外呼系统的简单介绍

本文目录一览： 1、哪个电销软件可能不封卡？ 2、有没有电销不封卡的外呼体系？ 3、...

使用SQL语句去掉重复的记录【两种方法】

全 部 栏 目

全部栏目