• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    探讨select in 在postgresql的效率问题

    在知乎上看到这样一个问题:

    MySQL 查询 select * from table where id in (几百或几千个 id) 如何提高效率?修改

    电商网站,一个商品属性表,几十万条记录,80M,索引只有主键id,做这样的查询如何提高效率?

    select * from table where id in (几百或几千个id)

    这些id没啥规律,分散的。。。。

    看了一下答案,感觉有好多不靠谱的,但是口说无凭,所以在我的电脑上写了几个查询测试一下。我用的是Postgresql9.4,但感觉mysql应该也差不多,首先创建一个简单表,只有简单的3列,在这个问题的下面好多人提到了需要看表的大小,其实这个问题和表大小无关,只和index的大小有关,因为是index是建立在int上的,所以只和纪录数目有关。

    Table "public.t9"
    Column | Type | Modifiers
    --------+----------------+-----------
    c1 | integer |
    c2 | character(100) |
    c3 | character(200) |
    Indexes:
    "i1" UNIQUE, btree (c1)insert into t9 values(generate_series(1000,500000,1),repeat('a',90),repeat('b',180)); 

    之后生成一些随机数,Mac上用jot,Linux上用shuf

    for ((i=0;i100000;i++))
    do
    jot -r 1 1000 600000 >>rand.file
    done 

    然后根据rand.file 生成查询语句:

    select * from t9 where c1 in (
    494613,
    575087,
    363588,
    527650,
    251670,
    343456,
    426858,
    202886,
    254037,
    ...
    1
    );

    分别生成3个sql文件,in内变量的数目分别是100,1000和10000个,执行这3个sql文件,看看时间

    try psql study -f test_100.sql -o /dev/null
    LOG: duration: 2.879 ms
    try psql study -f test_1000.sql -o /dev/null
    LOG: duration: 11.974 ms
    try psql study -f test_10000.sql -o /dev/null
    LOG: duration: 355.689 ms 

    可以看到只有在in内数据到了10,000个的时候数据时间会有比较大的变化,但也不过是在300多ms内完成。

    那如果按照有些回答那样,先建一个临时表,然后用in subquery,并且希望这时候可以两表join呢?为了简单我直接用两表join了

    drop table t_tmp;
    create table t_tmp(id int);
    insert into t_tmp (id) values
    (494613),
    (575087),
    (363588),
    (345980),...
    (1);
    select t9.* from t9, t_tmp
    where t9.c1 = t_tmp.id; 

    时间如何呢?

    try psql study -f test_create_10000.sql -o /dev/null
    LOG: duration: 2.078 ms
    LOG: duration: 1.233 ms
    LOG: duration: 224.112 ms
    LOG: duration: 322.108 ms 

    除去drop和create的时间,依然花费了500+的时间,这里的前提还是我用的ssd盘,所以写LOG的时间会快很多。为什么会这么慢呢?用explain看一下,这时候数据量较大,直接走Merge join 了

    那1000行数据的效率如何呢?

    try psql study -f test_create_1000.sql -o exp.out
    LOG: duration: 2.476 ms
    LOG: duration: 0.967 ms
    LOG: duration: 2.391 ms
    LOG: duration: 8.780 ms 

    100行的数据如下:

    try psql study -f test_create_100.sql -o /dev/null
    LOG: duration: 2.020 ms
    LOG: duration: 1.028 ms
    LOG: duration: 1.074 ms
    LOG: duration: 1.912 ms 

    可以看到在100个值和1000个值的情况下create table的方式不会比直接在in里面写所有的变量好多少,explain看的话是在用NLJ了。但在数据量更大(按照原问题,这里in的数量其实无法预知)的情况下效率只会更低,再加上额外的表维护成本和多余的SQL语句,DBA肯定不喜欢的,还是相信数据库,放心大胆直接用in list来搞定这些问题吧。

    以上内容是针对select in 在postgresql的效率问题,希望对大家有所帮助!

    您可能感兴趣的文章:
    • input+select(multiple) 实现下拉框输入值
    • 在Spring中用select last_insert_id()时遇到问题
    • 解决IE下select标签innerHTML插入option的BUG(兼容IE,FF,Opera,Chrome,Safari)
    • Mysql select in 按id排序实现方法
    • 解析MySQL中INSERT INTO SELECT的使用
    • insert into select和select into的使用和区别介绍
    • linux使用select实现精确定时器详解
    • 解决Hibernate JPA中insert插入数据后自动执行select last_insert_id()
    • 数据库插入数据之select into from与insert into select区别详解
    • PostgreSQL教程(六):函数和操作符详解(2)
    • PostgreSQL教程(七):函数和操作符详解(3)
    • PostgreSQL教程(十六):系统视图详解
    上一篇:SQL Server 2012 安全概述
    下一篇:SQL Server 2012 身份验证(Authentication)
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    探讨select in 在postgresql的效率问题 探讨,select,在,postgresql,的,