cover

一文让你了解数据采集

后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”)，得到其包含的文字信息。首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。某米电视推出的主打“高性价比”的全球首款人工智能语音电视某米电视4A，只需要一个语音按键，便可实现搜索关键词搜索、热度排行、开启应用游戏等10

q56731523

1715人浏览 · 2022-11-24 10:52:26

q56731523 · 2022-11-24 10:52:26 发布

随着云计算、大数据、人工智能的发展，数据采集作为数据的重要手段，成为广大企业的迫切需求。

所谓“得数据者，得人工智能”，如今人工智能早已在我们的生活中屡见不鲜。如“人脸识别”、“语音唤醒音响”等都属于人工智能的范畴。然而，人工智能的上游基础性产业，数据采集却鲜为人知。
在这里插入图片描述

数据采集是什么？

数据采集，顾名思义，分为“采”和“集”。“采”主要是数据的获取，可以有多种形式（具体详看下一小节）；“集”则是数据的清洗、连接、整合，将价值密度低的数据转化为价值密度高的数据。

数据采集有哪些类型？

数据采集分为：图片采集、语音采集、文字采集、视频采集。

商品采集、命令词采集、英语采集、粤语采集……泛泛相信大家对这些数据采集项目肯定不陌生~

正是你们的支持和付出，悄然间推动着人工智能的发展，是不是这钱赚的倍有面儿~~

采集的数据怎么被应用的？

在电影中，智能助理贾维斯的出色表现让大家对智能语音助手充满了期待。

本小节以语音采集为例，具体说说被采集的语言数据怎么被机器应用？

语音识别技术就是为了让机器人听明白你在说什么，它就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。

语音识别系统本质上是一种模式识别系统，包括：特征提取，模式匹配、参考模式库等单个基本单元。

由“训练”和“识别”两大部分构成。

训练：海量未知语音（就是咱用户提供的语言数据）经过话筒变换成电信号后，加在识别系统的输入端。首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。

别：识别过程通常又可以分为“前端”和“后端”两大模块。“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等；“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”)，得到其包含的文字信息。

数据采集应用到何处？

本小节依然以语音采集为例

某米电视推出的主打“高性价比”的全球首款人工智能语音电视某米电视4A，只需要一个语音按键，便可实现搜索关键词搜索、热度排行、开启应用游戏等10类语音交互功能。

某米还有其他产品利用到语音识别，如人工智能（AI）音箱，其唤醒词及二次元人物形象“小爱同学”深入人心。

某虹推出CHiQ人工智能电视Q5N和OLED电视Q5A系列，主打的功能还是语音控制。某尔、某L等也推出了可进行语音搜索的人工智能电视。

看到这儿，大家是否对数据采集的轮廓，有个大体的了解了？

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

cover

华为云数据仓库专业级开发者认证重磅发布

华为开发者空间

cover

一文带你搞懂GaussDB数据库性能调优

华为开发者空间

cover

KubeEdge 新版本5大特性解读：更完备的节点设备能力，全新的Dashboard体验

华为开发者空间

所有评论(0)

查看更多评论

q56731523

@weixin_44617651

已为社区贡献6条内容