• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    Postgresql去重函数distinct的用法说明

    在项目中我们常会对数据进行去重处理,有时候会用in或者EXISTS函数。或者通过group by也是可以实现查重

    不过Postgresql还有自带去重函数:distinct

    下面是distinct 的实例:

    1、创建表:user

    CREATE TABLE `user` (
     `name` varchar(30) DEFAULT NULL,
     `age` int(11) DEFAULT NULL
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
    INSERT INTO `user` VALUES ('张三', 20);
    INSERT INTO `user` VALUES ('李四', 22);
    INSERT INTO `user` VALUES ('李四', 20);
    INSERT INTO `user` VALUES ('张三', 22);
    INSERT INTO `user` VALUES ('张三', 20);
    

    查询结果:

    SELECT * FROM user
    张三 20
    李四 22
    李四 20
    张三 22
    张三 20
    

    2、根据 name 查询去重后的数据:

    SELECT distinct name FROM user
    张三
    李四
    

    3、根据name 和 age 查询去重后的数据:

    SELECT distinct name,age FROM user
    张三 20
    李四 22
    李四 20
    张三 22
    

    4、根据name,age查询重复数据数:

    SELECT distinct name,age,count(*) 数据条数 FROM user GROUP BY name,age
    张三 20 2
    张三 22 1
    李四 20 1
    李四 22 1
    

    二、查出重复数据后,我们需要删除重复数据

    删除重复数据一般几种方式,一般采用 临时表 或者根据 某个字段,例如id等,通过max或者min函数去重。

    补充:基于postgresql ctid实现数据的差异同步

    项目背景:

    最近在做异构数据同步方面(非实时)的工作,从oracle,gbase,postgresql向mysql数据库中同步,对于没有自增字段(自增ID或时间字段)的业务表,做差异同步是一件非常麻烦的事情,主要体现在记录的新增、更新与删除上

    备注:源库只提供一个只读权限的用户

    ctid在pg中的作用

    ctid是用来指向自身或新元组的元组标识符,怎么理解呢?下面能过几个实验来测试一下

    satdb=# create table test_ctid(id int,name varchar(100));
    satdb=# insert into test_ctid values(1,‘a'),(1,‘a');
    satdb=# insert into test_ctid values(2,‘a'),(3,‘a');

    查看记录的ctid值

    satdb=# select id,name,ctid from test_ctid;
    id | name | ctid
    ----±-----±------
    1 | a | (0,1)
    1 | a | (0,2)
    2 | a | (0,3)
    3 | a | (0,4)
    (4 rows)

    对id为2的记录进行更新

    satdb=# update test_ctid set name=‘b' where id=2;
    UPDATE 1

    这里可以看到id=2的记录指向了新的元组标识符 (0,5)

    satdb=# select id,name,ctid from test_ctid;
    id | name | ctid
    ----±-----±------
    1 | a | (0,1)
    1 | a | (0,2)
    3 | a | (0,4)
    2 | b | (0,5)
    (4 rows)
    satdb=# select * from test_ctid where ctid='(0,1)';
    id | name
    ----±-----
    1 | a
    (1 row)
    

    删除 id=3的记录后,对应的ctid(0,4)不存在了

    satdb=# delete from test_ctid where id=3;
    DELETE 1
    satdb=# select *,ctid from test_ctid;
    id | name | ctid
    ----±-----±------
    1 | a | (0,1)
    1 | a | (0,2)
    2 | b | (0,5)
    (3 rows)

    再插入一条记录时,看看会不会使用(0,4)这个标识符

    satdb=# insert into test_ctid values(3,‘d');
    INSERT 0 1
    satdb=# select *,ctid from test_ctid;
    id | name | ctid
    ----±-----±------
    1 | a | (0,1)
    1 | a | (0,2)
    2 | b | (0,5)
    3 | d | (0,6)

    这里新插入的记录不会使用(0,4),而是直接分配新的标识符(0,6)

    总结:

    1、ctid的作用与oracle rowid类似,可以唯一标识一条记录

    2、记录的更新后,后生产新的ctid

    3、记录删除后,新插入的记录不会使用已经删除记录的ctid

    4、基于ctid可以实现记录的去重操作

    5、基于ctid可以实现差异增量同步(新增、删除、更新)

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

    您可能感兴趣的文章:
    • postgresql rank() over, dense_rank(), row_number()用法区别
    • PostgreSQL 实现distinct关键字给单独的几列去重
    • postgreSQL中的row_number() 与distinct用法说明
    上一篇:postgresql 12版本搭建及主备部署操作
    下一篇:Postgresql中xlog生成和清理逻辑操作
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    Postgresql去重函数distinct的用法说明 Postgresql,去重,函数,distinct,