Python jieba库的介绍与使用

一、 jieba库简介与安装
简介:jieba库是一个进行中文分词的第三方库。可用来进行关键字搜索。
安装:在python3环境下输入:pip install jieba进行安装。
在这里插入图片描述
二、jieba库有三种分词模式
精确模式:试图将句子最精确地切开,适合文本分析(默认是精确模式);
全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,有冗余,不能解决歧义;
搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎分词。

import jieba
#精确模式(cut_all参数值为False表示精确模式)
seg_list = jieba.cut("最美的不是下雨天,是曾与你躲过雨的屋檐。",cut_all=False)
print( "精确模式:","/ ".join(seg_list)) 

#全模式(cut_all参数值为True表示全模式)
seg_list = jieba.cut("最美的不是下雨天,是曾与你躲过雨的屋檐。",cut_all=True)
print( "全模式:","/ ".join(seg_list))

#搜索引擎模式(粒度比较细)
seg_list = jieba.cut_for_search("最美的不是下雨天,是曾与你躲过雨的屋檐") 
print("搜索引擎模式:","/ ".join(seg_list))

输出结果:

精确模式: 最美// 不是/ 下雨天////// 躲过/// 屋檐/ 。
全模式: 最美/ 美的/ 不是/ 下雨/ 下雨天/ 雨天/ / ///// 躲过/// 屋檐/ / 
搜索引擎模式: 最美// 不是/ 下雨/ 雨天/ 下雨天////// 躲过/// 屋檐

三、jieba库其他一些应用

#1.导入自定义的字典
jieba.load_userdict("L1.txt")
#2.给字典添加词语(暂时的,不会永久改变词库)
jieba.add_word("你好啊")
#3.删除词库中的词语
jieba.del_word("不好")
#4.载入停用表
analyse.set_stop_words("stop_text.txt") 
#5.添加词性标注
import jieba.posseg as pseg
words =pseg.cut("我毕业于上海交通大学")
for w in words:
    print(w.word,w.flag)


输出结果:
我 r
毕业 n
于 p
上海交通大学 nt

#6.关键词提取
#jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
#第一个参数:待提取的关键词文本;第二个参数:返回关键词的数量,重要性从高到低排序;第三个参数:是否同时返回每个关键词的权重;四个参数:词性过滤,为空表示不过滤。

#导入统计分析必要的包
from jieba import analyse 
#载入停用词表
analyse.set_stop_words("stop_text.txt")    
with open("text.txt", "r",encoding="utf-8") as f: 
    text = f.read()  
findWord = analyse.extract_tags(text, topK=5, withWeight=True)   #topK定义权重前5,默认值为20
for wd, weight in findWord:     #wd, weight分别为关键词,权重
    print(int(weight*10),wd)    #int(weight*10)使生成的数为整数,根据词总数可作调整```

输出结果:
1 努力
1 奋斗
0 一路
0 辜负
0 坚强

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐