Python jieba库的介绍与使用

Python jieba库的介绍与使用一、jieba库简介与安装简介：jieba库是一个进行中文分词的第三方库。可用来进行关键字搜索。安装：在python3环境下输入：pip install jieba进行安装。二、jieba库有三种分词模式精确模式：试图将句子最精确地切开，适合文本分析(默认是精确模式)；全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，有冗余，不能解......

努力学习的小强

10223人浏览 · 2020-04-03 23:18:54

努力学习的小强 · 2020-04-03 23:18:54 发布

Python jieba库的介绍与使用

一、 jieba库简介与安装
简介：jieba库是一个进行中文分词的第三方库。可用来进行关键字搜索。
安装：在python3环境下输入：pip install jieba进行安装。
在这里插入图片描述
二、jieba库有三种分词模式
精确模式：试图将句子最精确地切开，适合文本分析(默认是精确模式)；
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，有冗余，不能解决歧义；
搜索引擎模式：在精确模式的基础上，对长词再次切分，适合用于搜索引擎分词。

import jieba
#精确模式（cut_all参数值为False表示精确模式）
seg_list = jieba.cut("最美的不是下雨天，是曾与你躲过雨的屋檐。",cut_all=False)
print( "精确模式:","/ ".join(seg_list)) 

#全模式（cut_all参数值为True表示全模式）
seg_list = jieba.cut("最美的不是下雨天，是曾与你躲过雨的屋檐。",cut_all=True)
print( "全模式:","/ ".join(seg_list))

#搜索引擎模式（粒度比较细）
seg_list = jieba.cut_for_search("最美的不是下雨天，是曾与你躲过雨的屋檐") 
print("搜索引擎模式:","/ ".join(seg_list))

输出结果：

精确模式: 最美/ 的/ 不是/ 下雨天/ ，/ 是/ 曾/ 与/ 你/ 躲过/ 雨/ 的/ 屋檐/ 。
全模式: 最美/ 美的/ 不是/ 下雨/ 下雨天/ 雨天/ / / 是/ 曾/ 与/ 你/ 躲过/ 雨/ 的/ 屋檐/ / 
搜索引擎模式: 最美/ 的/ 不是/ 下雨/ 雨天/ 下雨天/ ，/ 是/ 曾/ 与/ 你/ 躲过/ 雨/ 的/ 屋檐

三、jieba库其他一些应用

#1.导入自定义的字典
jieba.load_userdict("L1.txt")
#2.给字典添加词语（暂时的，不会永久改变词库）
jieba.add_word("你好啊")
#3.删除词库中的词语
jieba.del_word("不好")
#4.载入停用表
analyse.set_stop_words("stop_text.txt") 
#5.添加词性标注
import jieba.posseg as pseg
words =pseg.cut("我毕业于上海交通大学")
for w in words:
    print(w.word,w.flag)

输出结果：
我 r
毕业 n
于 p
上海交通大学 nt

#6.关键词提取
#jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
#第一个参数：待提取的关键词文本；第二个参数：返回关键词的数量，重要性从高到低排序；第三个参数：是否同时返回每个关键词的权重；四个参数：词性过滤，为空表示不过滤。

#导入统计分析必要的包
from jieba import analyse 
#载入停用词表
analyse.set_stop_words("stop_text.txt")    
with open("text.txt", "r",encoding="utf-8") as f: 
    text = f.read()  
findWord = analyse.extract_tags(text, topK=5, withWeight=True)   #topK定义权重前5，默认值为20
for wd, weight in findWord:     #wd, weight分别为关键词，权重
    print(int(weight*10),wd)    #int(weight*10)使生成的数为整数，根据词总数可作调整```