使用jieba分析小说太古神王中，男主更爱谁？去文章中找答案吧！#华为云·寻找黑马程序员#

欢迎添加华为云小助手微信（微信号：HWCloud002或HWCloud003），输入关键字“加群”，加入华为云线上技术讨论群；输入关键字“最新活动”，获取华为云最新特惠促销。华为云诸多技术大咖、特惠活动等你来撩！文本分析很多时候，我们会去统计一片文章中的高频词汇，以此来作为文章的关键词条，那么词频分析在python中，该用什么模块做？jieba！第一次听到这个词就乐了，一个**...

华为云开发者联盟

3157人浏览 · 2019-08-06 11:04:07

华为云开发者联盟 · 2019-08-06 11:04:07 发布

文本分析

很多时候，我们会去统计一片文章中的高频词汇，以此来作为文章的关键词条，那么词频分析在python中，该用什么模块做？jieba！
第一次听到这个词就乐了，一个**“结巴”，帮助我们统计词频…但仔细了解这个模块后，你会发现它的强大。怎么证明？来看看github。

19K的star，5000+fork你就知道它多受欢迎了！让我们先来学学jieba**。

jieba介绍

jieba的github上readme写的非常详细，如果大家喜欢可以去仔细学习：jieba gihub地址。这里挑我们代码需要用到的地方讲解下…
安装： pip install jieba
以下内容引用自jieba github

“结巴”中文分词：做最好的 Python 中文分词组件

分词

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

代码示例

# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

设置解析词语

add_word(word, freq=None, tag=None) 添加词语
比如上面的实力，我们想将中国科学院作为一个整体让jieba分析，那么我们可以jieba.add_word(‘中国科学院’)

jieba.load_userdict(file_name) 用户可以自定义分词字典
如果我们有成套的字典来提升词语识别，可以创建一个文本，将这些词语存储在文本中。具体格式如下：

词语、词频（可省略）、词性（可省略）
创新办 3 i
云计算 5
凱特琳 nz
台中

关键字抽取

刚才看到分词，不管我们是使用哪种方式，最终获得的都是迭代器或者的表，那我们如果想无脑输出词频权重较高的top多少次，如何做？
使用import jieba.analyse

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
withWeight 为是否一并返回关键词权重值，默认值为 False
allowPOS 仅包括指定词性的词，默认值为空，即不筛选
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件

但这种统计过于无脑，更多的情况下，还是要我们自己来配置…

分析什么？

说过了如何分词，获取词频。可我们没有数据，到底该分析什么？分析python书籍未免太过逗比，所以嘛还是分析点有意思的东西吧！前几天看新闻中国的玄幻小说，在老外的眼里简直就是至宝，什么掉下悬崖捡宝、穿越远古修仙、犀利哥重生附身，在我们看来俗到掉渣的剧情，老外看到都觉得是神来之笔！那么今天我们就来分析一部修仙小说吧…个人比较喜欢净无痕的书，绝世武神、太古神王到如今的伏天氏。但最近感觉写的越来越水。所以今天我们就来分析太古神王这部小说吧，貌似它已经拍成电视剧了。怎么获取全本内容？之前写的文章使用Python开发小说下载器，不再为下载小说而发愁就派上用场了，2000+章的小说全本下载。话说刚开始用写好的工具是，平均1秒3章，最近很多朋友反馈工具很慢，进来自己用了下两三秒才一章，难道跟我有关系？还是收敛点的好…边写着文章，手机边下载着，总算完了：

å°è¯´ä¸è½½

那分析什么内容呢，太古神王里面有两个女主叶倾城、长青青儿。那么秦问天到底更爱谁？让我们看看她俩的出场频率吧…

代码实现

只统计主角和两个女主，有些太过无趣，所以咱们多统计点词汇给50个吧…看看会有哪些：

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/24 2:23
# @Software : PyCharm
# @version  ：Python 3.7.3
# @File     : DearestGirl.py
import jieba


class DearestGirl:
    ROLES = "秦问天 倾城 青儿"

    def __init__(self):
        self.result = dict()

    def add_key_word(self):
        for user in self.ROLES.split():
            jieba.add_word(user)

    def cut_word(self):
        data = open("太古神王全本.txt", encoding='utf-8').read()
        jieba_cut = jieba.cut(data)
        for word in jieba_cut:
            if word not in self.ROLES.split():
                continue
            else:
                self.result[word] = self.result.get(word, 0) + 1

    def sort_words(self):
        print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))


if __name__ == '__main__':
    main = DearestGirl()
    main.add_key_word()
    main.cut_word()
    main.sort_words()


output:
[('秦问天', 35182), ('倾城', 2085), ('青儿', 2028)]

这就懵逼了，这俩女主居然词频这相近，可再看看男主的词频…有一个问题呼之欲出，这部小说是一部男主自恋的小说，他最爱的是自己！通篇都是他…哈哈。
那么这样就完了？不行不行，既然词频都出来了，顺带生成一下词云呗…

wordcloud

今天上班苗妹子还问到了关于这个模块，当然得用用了…
最终代码如下：

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/24 2:23
# @Software : PyCharm
# @version  ：Python 3.7.3
# @File     : DearestGirl.py
import jieba
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS
import numpy as np
from PIL import Image


class DearestGirl:
    ROLES = "秦问天 倾城 青儿"

    def __init__(self):
        self.result = dict()

    def add_key_word(self):
        for user in self.ROLES.split():
            jieba.add_word(user)

    def cut_word(self):
        data = open("太古神王全本.txt", encoding='utf-8').read()
        jieba_cut = jieba.cut(data)
        for word in jieba_cut:
            if word not in self.ROLES.split():
                continue
            else:
                self.result[word] = self.result.get(word, 0) + 1

    def sort_words(self):
        print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))

    def word_cloud(self):
        mask = np.array(Image.open('bk.png'))
        wc = WordCloud(
            font_path='C:/Windows/Fonts/simhei.ttf',  # 设置字体格式
            mask=mask,
            max_words=200,
            max_font_size=100
        )
        wc.generate_from_frequencies(self.result)
        image_colors = ImageColorGenerator(mask)
        wc.recolor(color_func=image_colors)
        wc.to_file('result.jpg')


if __name__ == '__main__':
    main = DearestGirl()
    main.add_key_word()
    main.cut_word()
    main.sort_words()

è¯äº