• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    shell两个文件去重的多种姿势

    前言

    大家都知道shell在文本处理上确有极大优势,比如多文本合并、去重等,但是最近遇到了一个难搞的问题,即两个大数据量文件去重。下面来看看详细的介绍吧。

    要求 

    有txt文件A.txt和B.txt。

    其中A为关键词和搜索量,以逗号分隔,约90万行。

    B为关键词,约400万行。

    需要从A中找出与B重复的关键词。

    我试了N种姿势,但结果都不尽人意,最奇怪的是有些方法对小数据量的测试文件有用,一旦用在A与B上就会失败,真叫人百思不得其解。

    姿势一:

    awk -F, '{print $1}' A >keywords.txt
    cat keywords.txt B.txt | sort | uniq -d
     
    #先从A.txt种取出关键词,然后与B.txt一起打开,用sort排序,uniq -d 取出重复的行

    姿势二:

    awk -F, '{print $1}' A >keywords.txt
    #照例先取出关键词
     
    comm -1 -2 keywords.txt B.txt
    #利用comm命令,显示两个文件都存在的行

    姿势三:

    awk -F, '{print $1}' A >keywords.txt
    for i in `cat keywords.txt`
    do
      A=`egrep -c "^$i$" B.txt`
      if [ $A != 0 ]
      then
        echo $i >>重复关键词.txt
      fi
    done
     
    #这种姿势就稍微复杂点
    #首先取出关键词,然后利用for循环逐个去B.txt里面匹配(注意正则写法^$i$),如果匹配到的结果数不为0,说明这个关键词是重复的,然后输出
    #这种方法的优点是稳妥,缺点是效率太TM低了,90万个词逐一与400万词匹配,shell默认又没有多线程,耗时太长。

    姿势四:

    awk -F, '{print $1}' A >keywords.txt
    cat keywords.txt B.txt | awk '!a[$1]++'
     
    #这个方法的原理其实我不太懂,awk命令实在太强大太高深了,但是这种方法又简洁又快速

    其实还有一种grep -vgrep -f 的方法,但是我没有试过,所以不在这里列出了。

    总结

    以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。

    您可能感兴趣的文章:
    • 判断文件是否存在的shell脚本代码
    • Shell逐行读取文件的4种方法
    • shell去掉文件中空行(空白行)的方法详解
    • shell脚本中执行时提示“没有那个文件或目录”的解决办法
    • shell按行读取文件的3种方法
    • Shell脚本统计文件行数的8种方法
    • Shell获取文件的文件名和扩展名的例子
    • Shell中调用、引用、包含另一个脚本文件的三种方法
    • shell判断文件,目录是否存在或者具有权限的代码
    • shell中删除文件中重复行的方法
    上一篇:用Shell判断字符串包含关系的方法小结
    下一篇:Shell交互批量更改主机名的方法
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    shell两个文件去重的多种姿势 shell,两个,文件,去,重的,