网上介绍word2vec使用的文章已经有很多了,基本的知识都可以找到,我这篇分享主要是针对目前最新的一些东西结合自己使用过程中出现的问题做的总结,也为自己做一个工作记录,备注一链接就是一个比较完善的使用word2vec的教程,但是在这些bolg中介绍的一些东西有些是过时的。

 

1.下载word2vec源码有点问题,我用vpn都没法再本地用svn下载代码,幸好我有国外的vps服务器,在服务器上下载的源代码然后拷贝到本地。

2.使用ansj项目进行分词,这一步对一个刚接触java不久的新人来说有点麻烦

        麻烦一:下载项目需要的依赖包并写简单程序测试分词功能时我用3.6版本有警告没法分词,但是刚好碰上代码管理者1个小时前上传的新的3.7版本的jar包,然后果断使用新的jar包就ok了,具体原因不清楚。

        麻烦二:在备注一的连接中说的tree-split-word依赖包需要自己编译通过编译器下载,但是我使用的时候在网上找到了对应的jar包,链接是备注二。

        麻烦三:原始data文件编码格式最好是utf-8的,在程序中也能设置文件的输入格式,然后根据输入格式再设置输出格式。

3.需要的jar包和word2vec源码(我发表这篇文章时最新下载的源码)已经上传csdn资源了,链接在备注五。

 

下面是训练结果:

 

备注:

备注一:用中文把玩Google开源的Deep-Learning项目word2vec

备注二:tree-split-word依赖包

备注三:IntelliJ IDEA运行test控制台中文乱码

备注四:java中文分词ansj的使用

备注五:资源下载

 

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐