python jieba库的基本使用-巨人网络通讯

python jieba库的基本使用

一、jieba库概述

jieba是优秀的中文分词第三方库

中文文本需要通过分词获得单个的词语
jieba是优秀的中文分词第三方库，需要额外安装
jieba库提供三种分词模式，最简单只需要掌握一个函数

二、jieba库安装

pip install jieba

三、jieba分词的原理

jieba分词依靠中文词库

利用一个中文词库，确定汉字之间的关联概率
汉字间概率大的组成词组，形成分词结果

四、jieba分词的3种模式

精确模式：把文本精确地切分开，不存在冗余单词（最常用）
全模式：把文本中所有可能的词语都扫描出来，有冗余
搜索引擎模式：在精确模式的基础上，对长词再次切分

五、jieba库常用函数

函数	描述
jieba.lcut(s)	精确模式，返回一个列表类型的分词结果
jieba.lcut(s,cut_all=True)	全模式，返回一个列表类型的分词结果，存在冗余
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型的分词结果，存在冗余
jieba.lcut(s)	精确模式，返回一个列表类型的分词结果
jieba.add_word(s)	向分词词典增加新词w

例子：

>>> jieba.lcut("中国是一个伟大的国家")
['中国', '是', '一个', '伟大', '的', '国家']

>>> jieba.lcut("中国是一个伟大的国家", cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']

>>> jieba.lcut_for_search("中华人民共和国是伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

六、文本词频示例

问题分析

英文文本： Hamlet 分析词频

https://python123.io/resources/pye/hamlet.txt

中文文本：《三国演义》分析人物

https://python123.io/resources/pye/threekingdoms.txt

代码如下：

def getText():
 # 打开 hamlet.txt 这个文件
 txt = open("hamlet.txt", "r").read()
 # 避免大小写对词频统计的干扰，将所有单词转换为小写
 txt = txt.lower()
 # 将文中出现的所有特殊字符替换为空格
 for ch in '|"#$%^*()_+-=\\`~{}[];:>?/':
 txt = txt.replace(ch, " ")
 # 返回一个所以后单词都是小写的，单词间以空格间隔的文本
 return txt

hamletTxt = getText()
# split() 默认使用空格作为分隔符
words = hamletTxt.split()
counts = {}
for word in words:
 counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

上面代码中的

items.sort(key=lambda x:x[1], reverse=True)

是根据单词出现的次数进行排序，其中使用了 lambda 函数。更多解释请看：
https://www.runoob.com/python/att-list-sort.html

下面使用 jieba 库来统计《三国演义》中任务出场的次数：

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 else:
 counts[word] = counts.get(word, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

运行结果：

曹操  953
孔明  836
将军  772
却说  656
玄德  585
关公  510
丞相  491
二人  469
不可  440
荆州  425
玄德曰  390
孔明曰  390
不能  384
如此  378
张飞  358

我们可以看到得出的结果与我们想象的有些差异，比如

“却说”、“二人”等与人名无关
“诸葛亮”、“孔明”都是同一个人
“孔明”和“孔明曰”分词不符合我们的需求

所以我们需要对上面代码进行优化，在词频统计的基础上，面向问题改造我们的程序。

下面是《三国演义》人物数量统计代码的升级版，升级版中对于某些确定不是人名的词，即使做了词频统计，也要将它删除掉。使用寄一个集合excludes来接收一些确定不是人名但是又排序比较靠前的单词列进去。

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
excludes = {"将军","却说","荆州","二人","不可","不能","如此"}
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 elif word == "诸葛亮" or word == "孔明曰":
 rword == "孔明"
 elif word == "关公" or word == "云长":
 rword == "关羽"
 elif word == "玄德" or word == "玄德曰":
 rword == "刘备"
 elif word == "孟德" or word == "丞相":
 rword == "曹操"
 else:
 rword = word
 counts[rword] = counts.get(rword, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

运行结果：

曹操  963
孔明  847
张飞  366
商议  359
如何  352
主公  340
军士  320
吕布  303
左右  298
军马  297
赵云  283
刘备  282
引兵  279
次日  278
大喜  274

可以看出还是有像“商议”、“如何”等不是人物的词出现在统计结果，我们将这些词加入到 excludes 中，多次运行程序后最后得到《三国演义》任务出场顺序前20：

七、文本词频统计问题举一反三

应用问题扩展

《红楼梦》、《西游记》、《水浒传》...等名著都可以统计它的任务出场次数
政府工作报告、科研论文、新闻报道...中出现的大量的词频进行分析，进而找到每篇文章的重点内容
进一步，对文本的词语或词汇绘制成词云，使其展示的效果更加直观

以上内容资料均来源于中国大学MOOC网-北京理工大学Python语言程序设计课程
课程地址：https://www.icourse163.org/course/BIT-268001

以上就是python jieba库的基本使用的详细内容，更多关于python jieba库的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python jieba库分词模式实例用法
Python jieba库用法及实例解析
Python基于jieba库进行简单分词及词云功能实现方法
Python中jieba库的使用方法

上一篇：python中的bool数组取反案例
下一篇：Python多进程与多线程的使用场景详解

python jieba库的基本使用

目录一、jieba库概述二、jieba库安装三、jieba分词的原理四、jieba分词的3种模式五、jieba库常用函数六、文本词频示例七、文本词频统计问题举一反三一、jieba库概述 jieba是优秀的中python,jieba,库,的,基本,使用,...

上市公司审批更需要简政放权

2015年03月06日讯作为来自上市公司的代表，我更关注在审批制度改革中政府如何给企业...

oem电话机器人贴牌（电话机器人品牌排行）

本文目录一览：1、市面上这么多电话机器人品牌,哪家效果比较好2、OEM就是贴牌生产讲...

电话机器人加盟的注意事项

电话机器人加盟的注意事项人工智能的发展已经成为这个时代的主旋律，相信在各大信...

淮安白名单电销卡真的不封号吗

淮安白名单电销卡真的不封号吗电销企业最离不开的就是电销卡，因为电销卡可以满足...

发送侵权通知时应一并提供权利人身份证明、联系方式等

【案例要旨】在权利人或利害关系人依据侵权责任法第三十六条向电商平台发送侵权通...

公司400电话怎么申请开通（移动400电话怎么申请）

公司400电话怎么申请开通（移动400电话怎么申请）现在越来越多的企业开始注重客户服...

长春不封号外呼系统服务商,电话呼叫软件多少钱-欢迎光

长春不封号外呼系统服务商,电话呼叫软件多少钱壁龛式安装稳定牢固。4)从切换箱拉至...

外呼系统后台修理时间的简单介绍

本文目次一览： 1、外呼零碎怎样操持？ 2、外呼零碎是怎样用的？ 3、网御零碎中事中...

福州防封电销系统加盟（防封号电销系统安全吗）

本篇文章给大家谈谈福州防封电销系统加盟，以及防封号电销系统安全吗对应的知识点...

个人站长成功创业三要素

9月23日有幸参加了全国的互联网大会，这次大会大家从网上也看了很冷清，开幕式感觉...

运城联通外呼机器人批发网,电销机器人-诚信服务

运城联通外呼机器人批发网,电销机器人系统通常都支持通话记录的批量和重复播放，人...

南昌今年将采取“点对点”招商方式开拓服务外包市场

为加快我市服务外包产业的发展，我市今年将推进与国内外服务外包发达城市的交流与...

汉沽区电话机器人维修点（汉沽家电修理电器电话）

本文目录一览：1、帅康燃气灶维修电话——24小时全国统一400客服维修服务中心2、玉溪...

湖州防封电销系统多少钱

湖州防封电销系统多少钱打电话前，可以先用软件对号码进行筛选，减少无效的拨打，...

外呼系统图片及价格（外呼系统报价）

本文目次一览： 1、市道上外呼零碎挺多的，外呼零碎几何钱一个？ 2、外呼零碎一个几...

python jieba库的基本使用

全 部 栏 目

目录

一、jieba库概述

二、jieba库安装

三、jieba分词的原理

四、jieba分词的3种模式

五、jieba库常用函数

六、文本词频示例

七、文本词频统计问题举一反三

全部栏目