• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    Python jieba 中文分词与词频统计的操作

    我就废话不多说了,大家还是直接看代码吧~

    #! python3
    # -*- coding: utf-8 -*-
    import os, codecs
    import jieba
    from collections import Counter
     
    def get_words(txt):
     seg_list = jieba.cut(txt)
     c = Counter()
     for x in seg_list:
      if len(x)>1 and x != '\r\n':
       c[x] += 1
     print('常用词频度统计结果')
     for (k,v) in c.most_common(100):
      print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/3), v))
     
    if __name__ == '__main__':
     with codecs.open('19d.txt', 'r', 'utf8') as f:
      txt = f.read()
     get_words(txt)

    样本:十九大报告全文

    常用词频度统计结果
      发展 ********************************************************************** 212
      中国 ******************************************************** 168
      人民 **************************************************** 157
      建设 ************************************************* 148
     社会主义 ************************************************ 146
      坚持 ******************************************* 130
      国家 ****************************** 90
      全面 ***************************** 88
      制度 *************************** 83
      实现 *************************** 83
      推进 *************************** 81
      政治 ************************** 80
      社会 ************************** 80
      特色 ************************** 79
      加强 *********************** 71
      体系 ********************** 68
      文化 ********************** 66
      我们 ********************* 64
      时代 ********************* 63
      必须 ******************** 61
      经济 ******************* 59
      伟大 ******************* 58
      完善 ***************** 51
      我国 **************** 50
      推动 *************** 47
     现代化 *************** 47
      安全 *************** 46
      更加 ************** 44
      民主 ************** 44 

    补充:jieba读取txt文档并进行分词、词频统计,输出词云图

    代码实现

    # 库的引用
    import jieba
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    from wordcloud import WordCloud
    #定义一个空字符串
    final = ""
    #文件夹位置
    filename = r"D:\python\pra\推荐系统1-500.txt"
     
    #打开文件夹,读取内容,并进行分词
    with open(filename,'r',encoding = 'utf-8') as f:
      for line in f.readlines():
        word = jieba.cut(line)
        for i in word:
          final = final + i +" "
    

    运行结果

    # 图云打印
    word_pic = WordCloud(font_path = r'C:\Windows\Fonts\simkai.ttf',width = 2000,height = 1000).generate(final)
    plt.imshow(word_pic)
    #去掉坐标轴
    plt.axis('off')
    #保存图片到相应文件夹
    plt.savefig(r'D:\python\pra\6.png')

    图云输出图

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

    您可能感兴趣的文章:
    • Python 统计数据集标签的类别及数目操作
    • Python统计可散列的对象之容器Counter详解
    • Python 统计列表中重复元素的个数并返回其索引值的实现方法
    • Python实战之单词打卡统计
    • python之cur.fetchall与cur.fetchone提取数据并统计处理操作
    • python自动统计zabbix系统监控覆盖率的示例代码
    • python 统计代码耗时的几种方法分享
    • Python统计列表元素出现次数的方法示例
    • python统计RGB图片某像素的个数案例
    • 利用Python3实现统计大量单词中各字母出现的次数和频率的方法
    • 使用Python 统计文件夹内所有pdf页数的小工具
    • python 统计list中各个元素出现的次数的几种方法
    • python调用百度AI接口实现人流量统计
    • Python代码覆盖率统计工具coverage.py用法详解
    • python 爬虫基本使用——统计杭电oj题目正确率并排序
    • 利用python汇总统计多张Excel
    • python统计mysql数据量变化并调用接口告警的示例代码
    • 用python实现监控视频人数统计
    上一篇:pandas多层索引的创建和取值以及排序的实现
    下一篇:Python爬取动态网页中图片的完整实例
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    Python jieba 中文分词与词频统计的操作 Python,jieba,中文,分词,与,