5. 文本分字、词、句

参考文章: https://mp.weixin.qq.com/s/MLmi-Yoi9sez8-5DPtcBVw

官方文档(构造参数): https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Reference/Global_Objects/Intl/Segmenter/Segmenter

官方文档(使用): https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Reference/Global_Objects/Intl/Segmenter

地域参考(每个语言的Subtag): https://www.iana.org/assignments/language-subtag-registry/language-subtag-registry

默认
默认
构造参数解释
locales:地域
options:其他参数
granularity:如何分
grapheme:分字
word:分词
sentence:分句
localeMatcher:算法
best fit:浏览器自行选择
lookup:使用BCP 47 查找算法

分句

//第一个参数是文本语言  第二个参数
const segmenter = new Intl.Segmenter(
  'zh', { granularity: 'sentence' }
);


Array.from( segmenter.segment('你好,我是 ConardLi。我来了!你是谁?你在哪?'), s => s.segment)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yzHBB9bG-1671846723919)(en-resource://database/62959:0)]

分词

//第一个参数是文本语言  第二个参数
const segmenter = new Intl.Segmenter(
  'zh', { granularity: 'word' }
);


Array.from( segmenter.segment('你好,我是 ConardLi。我来了!你是谁?你在哪?'), s => s.segment)

在这里插入图片描述

分字

//第一个参数是文本语言  第二个参数
const segmenter = new Intl.Segmenter('zh');


Array.from( segmenter.segment('你好,我是 ConardLi。我来了!你是谁?你在哪?'), s => s.segment)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zTr5xUDQ-1671846723920)(en-resource://database/62963:0)]

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐