深度学习企业级应用开发入门指南(二)
原文:Introduction to Deep Learning Business Applications for Developers协议:CC BY-NC-SA 4.0九、其他应用深度学习的应用范围远远超出了前几章提到的范围。本章将概述与业务相关的其他应用。DL 已经融入到许多服务和产品中,包括客户服务、财务、法律、销售、质量、定价和生产。与此同时,云计算和存储、推动物联网(IoT)的无数数
原文:Introduction to Deep Learning Business Applications for Developers
九、其他应用
深度学习的应用范围远远超出了前几章提到的范围。本章将概述与业务相关的其他应用。DL 已经融入到许多服务和产品中,包括客户服务、财务、法律、销售、质量、定价和生产。
与此同时,云计算和存储、推动物联网(IoT)的无数数据传感器的激增、量化的自我以及移动设备的普遍使用都在释放技术和经济方面的破坏性力量。机器学习将允许极端的上下文和个性化,使我们有可能将每个客户和每个问题视为独特的。它也将是解决公司在优化运营和预测方面面临的复杂问题的关键,这是机器学习激增的理想场景。
机器学习将使一切程序化,从广告到客户体验,并将允许公司建立更好的应用程序,与人们创造的东西互动,如图片、语音、文本和其他杂乱的东西。这使得公司能够创造出与人类自然互动的产品。
构建机器学习产品需要三个组件:训练数据(有监督或无监督)、软件/硬件和人才。随着软件的商业化和硬件的现场可轻松获得,关键的组成部分是人才和数据,以及在组织中使用它们的流程。
9.1 异常检测和欺诈
异常值或离群值是与其余数据分布显著不同的数据点,并且不太可能是它的一部分。异常检测应用于网络入侵检测、信用卡欺诈检测、传感器网络故障检测、医疗诊断等众多领域[CBK09]。
处理异常检测的模型可以分为三类。
- 纯分类模型(根据过去的事件预测欺诈事件的可能性)
- 新颖性检测(异常模式的检测)
- 网络分析(识别单独看起来合法的协同异常事件)
传统的数据分析方法长期以来一直用于检测欺诈,即通过数据库中的知识发现(KDD)、数据挖掘、机器学习和统计。一阶统计的简单评估,如平均值、分位数、性能指标或概率分布,通常用作第一线检测。时间序列分析、无监督聚类(如 k-means)、数据组之间的模式和关联分类以及检测用户交易行为异常的匹配算法构成了第二道防线。
异常检测中的典型方法是数据点的重建误差,即原始数据点与其重建之间的误差;这被用作异常分数。主成分分析(PCA)是用于这种方法的常用方法,其中第一次观察和根据前 n 个 PCA 特征向量的重建之间的距离可以用作观察异常程度的度量。
然而,这些传统方法中的大多数缺乏灵活性来适应不断变化的环境,例如欺诈检测。DNN 方法能够以监督或无监督的方式学习可疑模式。
在监督学习中,通常会抽取数据的子样本,并将其手动分类为欺诈或非欺诈。这是使分类器更少偏差所必需的,因为大多数事件是正常的或非虚假的,通常超过 99%,有时超过 99.99%。有三种类型的无监督技术。
图 9-1
Anomaly detection with density estimation (source: https://www.slideshare.net/agramfort/anomalynovelty-detection-with-scikitlearn
)
- 基于密度的方法:在这种方法中,你拟合一个密度模型,如高斯混合模型,并通过定位不符合分布的点来识别异常(见图 9-1 )。
- 内核方法:平滑来自内核的数据,并识别平滑之外的点。典型的方法是 OneClassSVM。
- 聚类:这就像最近邻。当一个点离任何聚类都太远时,它就是异常值。
所有这些类型的检测仅能够检测类似于先前已经发生并且已经被人类分类的欺诈。检测一种新型欺诈可能需要使用无监督的机器学习算法。
深度学习非常适合处理这些不平衡的数据集(绝大多数交易都是非数据流的),因为你可以用所有(未标记的)数据预先训练网络。softmax 监督图层可应用于最后一个图层,但使用平衡数据集。
生成对抗网络也可以用于异常检测和一次性学习,因为它们需要弱监督。例如,米什拉等人使用了一种简单但强大的技术,该技术基于条件变分自编码器(
https://arxiv.org/pdf/1709.00663.pdf
)
。变分自编码器是一种图形模型,用于学习隐藏的潜在表示 z 相对于数据 x 的分布。条件变分自编码器最大化条件似然 p(x|c)的变分下限,这有助于生成具有期望属性的样本(由类别 c 编码)。然后,可以将重建误差分配给每个类别,并且可以通过一次性学习来生成新的类别。
堆叠式自编码器(SAE)可用于分层降维,从而从数据中获得抽象和更具代表性的特征。[ZCLZ16]提出了一种基于深度神经网络的异常检测建模方法;他们称之为深度结构化基于能量的模型(DSEBM),其中能量函数是具有结构的确定性深度神经网络的输出。该模型处理静态、顺序和空间数据。新颖之处在于,模型架构适应数据结构,从而匹配或优于其他竞争方法。
Schreyer 等人提出了一种使用深度自编码器网络( https://arxiv.org/pdf/1709.05254.pdf
)检测异常的方法。被训练的网络的重构误差被个体属性概率正则化,被解释为高度自适应的异常评估。与强基线相比,这导致异常的检测精度显著提高。
9.1.1 欺诈防范
欺诈是银行和保险公司最大的损失之一,在美国每年的损失高达 17 亿美元。欺诈是一个庞大、复杂且非常棘手的问题,涉及针对这些组织的不断变化且更加复杂的计划。
大多数当前检测欺诈的方法在很大程度上是静态的,并且依赖于从历史交易的子集导出的模式。银行基本上查看交易数据,根据一组硬性规则、从过去事件中学习到的试探法以及检测特定交易不合法可能性的机器学习方法来验证给定交易是否有效。对于信用卡支付,这些模型通常可以将欺诈比率从 1:10000 提高到 1:100。然而,没有已知签名的首次欺诈几乎总是被遗漏。协同(网络)类型的欺诈也很难发现,因为每笔交易看起来都是合法的。在保险业,这个问题甚至更难解决,因为涉及到更多的中介机构,存在更复杂的欺诈手段。
剖析(也称为行为描述)试图描述个人、群体或人群的典型行为。例如,“某个客户群的典型手机使用情况是怎样的?”这个问题可能不容易回答,因为它可能需要对夜间和周末通话、国际使用、漫游费、短信分钟等进行复杂的描述。行为可以应用于整个细分市场,也可以应用于小团体甚至个人层面。剖析通常用于建立异常检测的行为规范,例如监控入侵或欺诈。例如,如果一个人通常用信用卡购买的东西是已知的,您可以确定卡上的新费用是否符合该配置文件,并创建分数警报。然而,假阳性的数量通常很高。
另一种处理欺诈和安全的技术是链接预测。它试图通过建议这些节点上的链接并可能估计链接的强度来预测图中节点(人的对象)之间的连接。链接预测在社交网络系统中很常见。例如,为了向客户推荐电影,您可以考虑客户和他们观看或评价的电影之间的图表。在(二分)图中,算法发现客户和电影之间不存在但可能存在的关系。
沙巴尼等人( http://arxiv.org/abs/1508.03965
)最近的一项工作表明,通过识别和对未被发现的与罪犯密切相关的个人进行预防性观察,图表分析在预测芝加哥的暴力犯罪团伙活动方面是有效的。
安等人将变分自编码器(VAE)用于使用来自 VAE ( http://dm.snu.ac.kr/static/docs/TR/SNUDM-TR-2015-03.pdf
)的重建概率的异常检测方法。该重构概率考虑了数据中更细微的相关性,使其成为比重构误差更好的异常分数,重构误差通常由 AE 和 PCA 使用。由于 vae 是生成模型,它们允许您理解异常背后的特征。
9.1.2 在线评论中的欺诈
在线评论中的欺诈也越来越普遍。虚假评论是由撰写它们的企业或购买评论者撰写的,以提高其产品的受欢迎程度或降低竞争力。对于电子商务来说,识别并删除这些评论以保持客户的信任至关重要。虚假评论可能占到评论总数的 80%。各种特征可用于欺诈检测,例如评级、评论、时间戳和相关性。这个问题可以描述为:给定一组用户、产品和带有时间戳的评级,计算每个用户的可疑性得分。大多数算法使用时间方法来检测评级欺诈,方法是捕捉在短时间内收到大量正面或负面评论的产品,通过欺诈性评论的突然增加来检测,以偏向流行度或诋毁其竞争对手。另一种方法是基于对评分分布的分析,以找到对产品的评分与其他用户非常不同的用户。
这个问题可以用贝叶斯方法来描述,这是在具有极端评级分布的用户和具有大量评级的用户之间建立良好平衡的自然选择。这就给了这个问题一个很自然的答案:“一个 20 分平均 5 分的用户比一个 100 分平均 4.8 分的用户更可疑吗?”关于假冒内容检测应用的最近应用,参见 https://arxiv.org/pdf/1703.06959.pdf
。
虚假评论变得更加难以检测,因为最近的一项工作显示,神经网络可以生成几乎与人类无法区分的人工评论; https://arxiv.org/pdf/1708.08151.pdf
见。在这项工作中,作者使用字符级 LSTM 和编码器-解码器架构来生成很少有人能识别为假的餐馆虚假评论。这里有一些虚假评论的例子(注意,有一些风格的一致性;评论是假装青少年用户写的):
- “我喜欢这个地方。我来这里已经很多年了,这是一个和朋友家人一起出去玩的好地方。我喜欢这里的食物和服务。我在那里时从未有过不好的经历。”
- “我吃了带薯条的烤蔬菜汉堡!!!!哦,还有味道。Omgggg!很有味道!太好吃了,我都没拼出来!!"
- “我和我的家人都是这个地方的超级粉丝。员工非常好,食物也很棒。鸡肉很不错,蒜蓉酱也很完美。水果冰淇淋也很好吃。强烈推荐!”
9.2 安全和预防
随着信息的数字化,公司越来越容易受到各种类型的攻击。入侵检测对网络安全至关重要。除了检测网络攻击之外,入侵检测还有助于发现异常的系统行为,从而检测事故或不良情况。
2016 年,卡巴斯基记录了超过 6900 万次恶意代码攻击,2.61 亿个唯一 URL 被 web 防病毒组件识别为恶意。恶意代码分析和检测是入侵检测技术中的一个关键问题。恶意代码的检测目前分为两种方法:基于主机和基于网络。机器学习可以通过学习入侵代码与正常代码的特征来有效地检测恶意代码。Long 等人[LCWJ15]综述了各种恶意代码检测应用中的各种特征提取方法和机器学习方法,包括朴素贝叶斯、决策树、人工神经网络、支持向量机等。虽然这些方法取得了一些成功,但特征提取并不合适,因为检测率和检测精度不高,并且算法复杂。
深度学习技术已被证明优于浅层学习模型(如支持向量机)——例如参见 https://pdfs.semanticscholar.org/45ba/f042f5184d856b04040f14dd8e04aa7c11f6.pdf
。基于 LSTM 单位的模型能够模拟复杂的时间依赖性。关于 LSTM 检测信用卡欺诈的应用的回顾,见 http://thirdworld.nl/credit-card-transactions-fraud-detection-and-machine-learning-modelling-time-with-lstm-recurrent-neural-networks
。
在 https://www.technologyreview.com/s/601955/machine-visions-achilles-heel-revealed-by-google-brain-researchers/
中,库拉金等人证明了对抗性的例子(与真实数据几乎无法区分的输入数据)可以很容易地欺骗图像分类器。以前的研究假设直接访问 ML 分类器,这样对立的例子是直接馈入模型的细粒度的每像素修改。相反,这项工作表明,当通过手机摄像头感知图像时,为愚弄预先训练的 ImageNet 初始网络而创建的对立例子也会被错误分类。
在 http://homepages.inf.ed.ac.uk/csutton/publications/leet08sbayes.pdf
中,作者探索了使用机器学习来颠覆垃圾邮件过滤器。
Deep Instinct 了解所有恶意软件和自我更新的共同特征。Deep Instinct 使用卷积神经网络(CNN ),根据一组带标签的数据进行训练——对于在线网站,图像像素带有一组主题元数据,而对于 Deep Instinct,则是二进制可执行文件。它将相同的技术应用于可执行文件。
在 https://people.csail.mit.edu/kalyan/AI2_Paper.pdf
中,来自麻省理工学院和机器学习初创公司 PatternEx 的研究人员展示了一个名为 AI2 的人工智能平台,该平台通过不断整合人类专家的输入,比现有系统更好地预测网络攻击。AI2 可以检测到 85%的攻击,大约是以前基准测试的三倍,同时还将误报数量减少了五分之一。
9.3 预测
开发了几种用于预测的机器学习算法,如多层感知器、贝叶斯神经网络、K-最近邻回归、支持向量回归和高斯过程。深度架构允许出现复杂的模型,这些模型可以超越传统的统计方法,如自回归综合移动平均(ARIMA)。
能源预测是一个至关重要的问题,因为过度需求会导致中断,而过度供应则会被浪费。在美国这个每年价值超过 1 万亿美元的行业中,每一个微小的进步都会产生巨大的影响。由于大型数据集的可用性,ML 对能量负荷很感兴趣。Busseti 等人使用 2012 年全球能源预测竞赛 Kaggle 竞赛的数据,使用 DL 算法进行能源需求预测,仅使用时间和温度数据来预测不同电网区域的能源负荷。数据包括 20 个不同地理区域四年半的每小时需求和 11 个区域的类似每小时温度读数。由于庞大的数据集,他们能够实现复杂的非线性模型,而不会过度拟合。他们使用了一个循环神经网络,实现了 530kWh/h 的 RMSE 和 99.6%的测试数据相关性,这几乎是前馈神经网络错误率的一半。他们还在输入数据中使用了基于到质心的平方指数距离的内核化局部回归。
对于几种深度学习算法以及一些传统算法的比较,对于能源预测,请参见 https://www.jesuslago.com/wp-content/uploads/forecastingPrices.pdf
。
凯利等人使用了一个模型( https://arxiv.org/pdf/1507.06594.pdf
)用于一个能源分解装置,该装置通过测量家庭电力需求的单个电表来计算电力消耗。他们使用了三种深度神经网络架构来进行能量分解:一种具有 LSTM 的递归网络形式,去噪自编码器,以及一种作为时间回归的网络。
请参见 https://arxiv.org/pdf/1703.00785.pdf
了解当前用于负载分解和能源预测的深度学习方法的概述。
天气预报是一个复杂的问题,它以时空网格的形式使用了以前条件下的许多测量数据。目前的预测模型是基于巨大的基于网格的有限元方法计算。微分方程中流体动力学的大集合被迭代求解,结果被用作下一步的初始条件。这在计算上极其昂贵,并且由于每个预测时间步长的误差增加,预测精度受到限制。Xi 等人使用 3D 卷积神经网络与带有 STM 细胞的神经网络的组合来建立精确的预测模型,使用多达 1 亿个参数,可从一端到另一端进行训练。提前两天的天气预报,在笔记本电脑上只需不到 0.1 秒,比在超级计算机上需要几个小时计算的模型更准确; http://arxiv.org/pdf/1506.04214v2.pdf
见。
Epelbaum 等人( https://hal.archives-ouvertes.fr/hal-01598905/document
)应用了一些深度学习网络架构来预测巴黎的交通模式。这些算法旨在处理汽车数据的历史速度,以预测道路交通数据。
流体和烟雾的实时模拟是计算机图形学中的一个难题,其中最先进的方法需要大量的计算资源,使得实时应用通常不切实际。Tompson 等人提出了一种基于神经网络的数据驱动方法,以获得快速和高度逼真的模拟;在 http://cims.nyu.edu/schlacht/CNNFluids.htm
看他们的作品和一些视频。他们使用来自一组模拟训练的卷积网络,使用半监督学习方法来最小化长期速度发散。结果令人印象深刻。
优步使用循环神经网络( https://eng.uber.com/neural-networks/
)来预测对其服务的需求并削减运营成本。该模型使用 LSTM RNN,总部设在 TensorFlow 和 Keras。该公司利用来自美国多个城市的五年数据训练了一个模型。在对一组数据进行测试时,得到的 RNN 具有很好的预测能力,这些数据包括圣诞节等主要节日之前、期间和之后七天内在美国多个城市的旅行,尽管它可以预测一些高峰,因为它们很少见。这个系统在处理尖峰假期方面明显更好,并且它稍微提高了其他日子的准确性,例如 MLK 日和独立日。
9.3.1 交易和对冲基金
投资管理行业正密切关注人工智能的最新进展。像贝莱德、布里奇沃特和施罗德这样的老牌资产管理公司和对冲基金正在投资这项技术,以建立可能超越人类的投资平台。不管这个目标看起来有多未来,人工智能的最新成就正在推动人们认为可能的极限。
神经网络是量化基金经理长期放弃的一个研究领域,因为过去试验的投资决策不透明,而且往往很糟糕。然而,近年来情况发生了巨大变化。深度学习被证明能够解决人类最难解决的难题,并设计复杂的策略来赢得围棋或扑克比赛。DL 神经网络可能是第一个被称为直觉的机器。
对于对冲基金来说,这些超人的认知能力可能代表着从错综复杂的金融市场中获取洞察力的明显优势。对冲基金管理公司 Man Group 的量化部门 AHL 是目前正在探索深度学习是否可以应用于投资的人之一。纽约基金经理欧几里德也在探索其可能性。
神经网络和深度学习只是多面人工智能世界的一个领域。但是用清晰的规则和完全可观察的状态打败一个游戏是一回事。市场更难理解。许多新的专注于人工智能的对冲基金可能会失败,但投资行业正处于彻底转型的风口浪尖的感觉是不可避免的。
Sirignano ( https://arxiv.org/pdf/1601.01987v7.pdf
)使用了一个空间神经网络来模拟下一次状态变化时最佳买价和卖价的联合分布。该模型还考虑了变化后的最佳买价和卖价的联合分布,以预测限价订单簿的变化。他使用了一个 4 层的神经网络,每个隐藏层有 250 个神经元,而空间神经网络有 50 个单元。辍学是用来防止过度拟合。该模型在 2014 年至 2015 年期间对超过 489 只股票进行了训练,使用了 200 个特征描述的 50TB 数据:前 50 个非零买价和卖价水平的限价订单簿的价格和规模。他可以提前一秒钟预测订单,还可以预测下一次买卖价格变化的时间,声称与逻辑回归相比,错误率降低了 10%。
费勒和费耶里格尔[FF15]使用递归自编码器,根据金融新闻标题中的文字来预测德国股票的回报。他们使用了德国市场的英语特别新闻公告数据集(8,359 个标题),涵盖了 2004 年至 2011 年的新闻。他们达到了 56%的准确率,这比随机森林(准确率为 53%)有了相当大的提高。
熊等人预测了(https://arxiv.org/pdf/1512.04916.pdf
)S&p500 的日波动率,从开盘价、高价位、低价位、收盘价来估计。他们使用一个单一的 LSTM 隐藏层组成的一个 LSTM 块。他们使用每日标准普尔 500 的收益和波动性作为输入。它们还包括 25 个国内谷歌趋势,涵盖经济的部门和主要领域。他们使用每批 32 个样品的 Adam 方法,并使用平均绝对百分误差(MAPE)作为客观损失函数。他们设定 LSTM 的最大滞后包括 10 次连续观测。结果,他们的 LSTM 方法胜过了 GARCH,Ridge 和 LASSO 技术。
2016 年,希顿等人试图( https://arxiv.org/abs/1605.07230
)创建一个跑赢生物技术指数 IBB 的投资组合。他们的目标是用少量股票和较低的验证误差来跟踪指数。他们还试图通过在大规模提款期间反相关来跑赢指数。他们没有直接模拟协方差矩阵;相反,它是在深度架构拟合过程中训练的,这允许非线性。他们使用带有正则化和 ReLUs 的自编码。他们的自编码器有一个由五个神经元组成的隐藏层。在训练中,他们使用了 2012 年至 2016 年 IBB 成份股的周收益率数据。他们对指数中的所有股票进行自编码,并评估每只股票与其自编码版本之间的差异。他们保留了与自编码版本最相似的十种最“共有”的股票。他们还保留了不同数量的其他股票,这些股票的数量是通过交叉验证选择的。对于结果,他们显示了跟踪误差作为投资组合中股票数量的函数,但似乎没有与传统方法进行比较。他们还用正回报取代了指数缩水,并找到了跟踪这一修正指数的投资组合。
9.4 医学和生物医学
深度学习已经在医疗保健行业产生了强大的影响,因为学习算法的容量和准确性增加了,并且因为大量医疗保健数据的广泛可用性,通过数字化(结构化和非结构化)医疗记录以及个人遗传数据和其他源自移动设备的个性化数据成为可能。
然而,ML 技术在医学上的应用有很长的失败历史。其中,一个特别棘手的方面是个体之间的可变性,这导致更简单的机器学习算法错过模式并给出错误的答案,这在对错误容忍度低的领域中是特别敏感的。
然而,正如戴夫·钱宁正确指出的那样,将人工智能应用于医学的一个大障碍是要有一个可靠的“真实”来源来训练机器。给定图像的真实解释是什么?一系列不常见症状背后的原因是什么?如果是一种罕见的疾病,统计数据将无济于事,这些症状可能会很容易地欺骗机器,以标记更多的常见病例。众包症状可以是一个解决方案,但它更棘手,因为它需要专门的信息来做出明智的决定。由于设备和诊断条件的可变性,该问题甚至更加复杂。最后,还有一个问题是如何处理要求可解释性的繁重的监管实体。dnn 是黑匣子,得出某个结论后再去找机器解释是没有希望的。令我们欣慰的是,人类专家对复杂情况的共识也很少。
9.4.1 图像处理医学图像
在物体识别和面部识别方面实现了人类水平的性能后,深度学习在医学成像处理的应用中具有巨大的潜力,在这个领域,主观解释是常见的,上下文是消除几种可能解释的关键。
一些公司正在应用 DL 来识别 X 射线等医学图像中的癌症,许多自动化图像识别工具已经在医院中使用。然而,基于医学图像处理的诊断只是医学领域中 DL 潜力的一小部分。然而,有几个挑战,如缺乏训练图像,缺乏全面的注释,向罕见疾病倾斜的分布,以及非标准化的注释度量。
有关生物医学图像数据集的更多信息,请访问 https://medium.com/the-mission/up-to-speed-on-deep-learning-in-medical-imaging-7ff1e91f6d71
。
深度学习算法今天在阿尔茨海默病检测、骨折检测和乳腺癌诊断方面比人类更精确,如图 9-1 所示。
这些是一些致力于医学成像深度学习的初创公司:
- Enlitic 使用医学图像和其他患者记录的系统来帮助医生诊断和治疗复杂的疾病。它在 2015 年 10 月筹集了 1000 万美元。
- Lumiata 使用广泛的医疗记录数据库来填充病史知识图表。它最近筹集了 1000 万美元。
- Synapsify 构建了一些应用程序,这些应用程序可以像人类一样从书面内容中进行语义读取和学习,以加速发现。
- 谷歌 DeepMind 研究项目与伦敦 Moorfields 眼科医院合作,致力于黄斑变性的早期检测。这项工作包括分析视网膜的光学相干断层扫描。
- 波士顿的马萨诸塞州总医院启动了其临床数据科学中心,以创建一个专注于使用人工智能技术诊断和治疗疾病的中心。许多创业公司已经着手解决这个问题,但这是一家重量级的医疗保健提供商做出的宣布,英伟达是其创始技术合作伙伴。
- DL 正在帮助盲人和视力受损者“看见”微软最近的一个项目展示了一个名为 Seeing AI (
https://www.youtube.com/watch?v=R2mC-NUAmMk
)的新视觉项目,该项目使用计算机视觉和 NLP 来描述一个人的周围环境,阅读文本,回答问题,并识别人脸上的情绪。百度有个类似的产品叫 DuLight。脸书已经开始向盲人和视障人士提供其内容。 - 基于一种读取大脑活动并直接连接到肌肉的技术,ML 也使截瘫患者重新获得一些控制和行动能力成为可能,超越了受损的神经回路。生理学。org/ doi/ pdf/ 10。1152/ physrev。00027.2016 。
- iCarbonX 的近期目标是从基因组、医学和生活方式数据中预测疾病的发作。
- Veritas Genetics 是一家提供直接面向消费者的全基因组测序以及产前测试和乳腺癌靶向筛查的公司,通过收购生物信息学公司 Curoverse 进军人工智能。他们一起致力于改善疾病风险评分和遗传学与疾病的因果关系。
- 该领域的其他公司包括 BayLabs、Imagia、MD.ai、AvalonAI、looke . ai 和 Kheiron Medical。
DL 不仅可以用于分析图像,还可以用于分析文本(病历)、数百万项关于药物有效性和药物相互作用的研究和医学研究,甚至可以用于分析遗传学,以创建量身定制的假设以及准确的诊断和个性化治疗。Watson for Medical 是最知名的技术,但也有许多初创公司在这一领域开展工作。例如,见 http://www.sciencedirect.com/science/article/pii/S1532046417300710
。
一些公司,如 Apixio,通过挖掘医疗记录来分析文本,并将其应用于帮助保险提供商对他们的哪些病人患有哪些疾病进行分类。这种分类过程通常由人工完成,包括将书面诊断与一组医学数字代码进行匹配。
病理学家的报告对于评估和设计癌症治疗程序至关重要。其中一个输入是患者的生物组织样本,由分辨率高达 30,000×30,000 像素的若干载玻片组成,分辨率可达细胞水平的μm。这是一项复杂而耗时的任务,需要多年的培训。
然而,在不同的病理学家对同一患者进行的具有癌细胞的组织的识别中可能存在很大的可变性,从而导致误诊。某些形式的乳腺癌的诊断符合率可能低至 50 %,前列腺癌的诊断符合率也同样低。
Camelyon 2017 Challenge 是一项国际比赛,旨在评估已经扩散(转移)到乳房附近淋巴结的乳腺癌定位算法的质量。在本次比赛的最新版本中,深度学习算法实现了超越人类的精度水平;https://camelyon17.grand-challenge.org/results/
见。详细解释见 https://arxiv.org/pdf/1606.05718.pdf
。作者获得了整个载玻片图像分类任务的受试者操作曲线下面积(AUC)为 0.97,肿瘤定位任务的得分为 0.89。病理学家独立审查了相同的图像,获得了 0.96 的全切片图像分类 AUC 和 0.73 的肿瘤定位分数。这些结果证明了使用深度学习在病理诊断的准确性方面产生显著改善的能力。图 9-2 总结了深度学习在医学图像处理中的影响。
图 9-2
Impact of DL in medical image (source: ARK report)
9.4.2 组学
在基因组学、蛋白质组学或代谢组学中,遗传信息(转录组和蛋白质组)数据由一组原始序列组成,通常是 DNA 或 RNA。由于下一代测序技术,这些数据已经变得可以负担得起了。此外,蛋白质接触图(显示三维结构中氨基酸对的距离)和微阵列基因表达数据也很容易获得。
研究最多的问题之一是蛋白质的二级结构预测或接触图。DNNs 已广泛应用于蛋白质结构预测研究。陈等人【CLN + 16】将应用于微阵列和 RNA 转序列表达数据,仅从 1000 个标志性基因中推断出多达 21000 个目标基因的表达。Asgari 等人[AM15]采用了 skip-gram 模型(在 Word2vec 上使用),并表明它可以有效地学习生物序列的分布式表示,具有许多“组学”应用的一般用途,包括蛋白质家族分类。
基因表达调控(包括剪接点或 RNA 结合蛋白)和蛋白质分类也在积极研究中。CNN 可以被训练来同时预测密切相关的因素。一维 CNN 也已经用于生物序列数据。Alipanahi 等人分别提出了基于 CNN 的转录因子结合位点预测和 164 细胞特异性 DNA 可及性多任务预测方法,用于疾病相关遗传变异体的鉴定。周等人[ZT15]提出了一个基于 CNN 的算法框架(DeepSEA),根据预测来学习转录因子结合和疾病相关的遗传变异。
桑德比等人[SSN+15]应用了具有 LSTM 隐藏单元和一维卷积层的双向 RNNs 来学习氨基酸序列的表示,并对蛋白质的亚细胞位置进行分类。Lee 等人[LBP + 16]将 RNNs 应用于 microRNA 识别和靶预测,并获得了最先进的结果。
转录组学分析利用各种类型转录物(信使 RNA、长非编码 RNA、微小 RNA 等)丰度的变化。)来收集一系列的功能信息,从剪接密码到各种疾病的生物标志物。转录组数据通常从不同类型的平台(各种微阵列平台、测序平台等)获得。)的差异在于所测量的基因组和信号检测的方法。许多因素导致基因表达数据的可变性。因此,即使是单平台分析也需要标准化。跨平台分析需要标准化技术,这可能是一个重大挑战。dnn 特别适合于跨平台分析,因为它们具有很高的泛化能力。他们也准备好处理基因表达数据的一些其他主要问题,如数据集的大小和维数减少和选择性/不变性的需要。
虽然在外科手术中,只有 36%的任务可以在未来几年内由人工智能取代,但对放射科医生来说,这一数字可能高达 66%。
机器学习技术可以用来从医学图像中发现不同类型的异常,如乳腺癌、皮肤癌和眼病。由吴恩达领导的斯坦福大学的一个团队已经表明(https://www.technologyreview.com/s/608234/the-machines-are-getting-ready-to-play-doctor/
)ML 模型可以比专家更好地从心电图(ECG)中识别心律失常。该团队训练了一种 DL 算法,以识别心电图数据中不同类型的不规则心跳。一些违规行为可能会导致严重的健康并发症,包括心脏性猝死,但信号可能很难检测到,因此患者经常被要求佩戴心电图传感器数周。即使这样,医生也很难区分良性和需要治疗的异常。他们从不同形式的心律失常患者那里收集了 30,000 个 30 秒的剪辑。为了评估他们算法的准确性,该小组将它的性能与五位不同的心脏病专家在 300 个未诊断片段上的性能进行了比较。一个由三名心脏病专家组成的小组提供了一个基本事实判断。
9.4.3 药物研发
机器学习的最新进展对药物发现做出了重大贡献。在推断小分子化合物的性质和活性时,深度神经网络尤其在预测能力方面提供了显著的提升。Mamoshina 等人( https://www.ncbi.nlm.nih.gov/pubmed/28029644
)使用生成对抗自编码器(AAE)为药物发现生成新的分子指纹。他们使用了一个七层 AAE 架构,其中潜在的中间层作为鉴别器。作为输入和输出,AAE 使用二进制指纹和分子浓度的向量。在潜伏层中,他们还引入了负责生长抑制百分比的神经元,当其为阴性时,表明治疗后肿瘤细胞数量的减少。他们用 NCI-60 细胞系分析数据对 AAE 进行了训练,这些数据针对 MCF-7 细胞系中的 6252 种化合物。AAE 的输出被用于筛选 PubChem 中的 7200 万种化合物,并选择具有潜在抗癌特性的候选分子。
计算机辅助药物设计(CADD)具有巨大的潜力,但也存在一些挑战,无论是基于结构的药物设计(药物结合的蛋白质三维结构),还是基于配体的药物设计(化学和定量结构活性关系[QSAR])。在过去的几十年里,许多被批准的药物是 CADD 在识别和筛选具有特定生物活性的小分子方面所做的巨大努力的结果。
然而,生物学是一个极其复杂的系统,CADD 只是克服药物发现挑战的许多步骤之一。我们可能还远远没有实现这样一个世界,即计算机发现药物,在一群机器人化验中进行虚拟测试,然后只需点击几下鼠标就能把药物送到患者手中。在计算机上,CADD 的平台很容易超负荷,并且经常不能交付实际的预期项目。不是“软件吃掉生物技术”,今天药物发现的现实是生物吃掉一切。候选新药的主要失败模式源于一个简单的事实:人类生物学极其复杂。干扰错误靶点或系统的候选药物会导致不良结果(“脱靶”毒性)。它们可以干扰正确的目标,但产生错误的效果(“对目标”或基于机制的毒性)。他们通常是杂乱的,与许多事物相互作用,一些是已知的,许多是未知的。除了它们的目标药理学,药物还以无数方式与人体相互作用,使它们无效或更糟(吸收、分布、代谢和排泄是四个重要方面)。而且,至关重要的是,生物学可能无法改善特定疾病、降低死亡率或提高生活质量。经常选择错误的目标进行询问,这是第二阶段及以后损耗的主要原因。更具挑战性的是,患者之间的差异(甚至物种之间的差异!)也导致了复杂性的增加,有好的(有见地的)也有坏的(不幸的)。公平地说,即使药物获得批准,我们也不了解它们的一切。
几家公司正在利用 DNN 的计算能力和现有的生物医学数据来加快 sillico 的药物发现。一种药物的发现可能需要数十年和数亿美元,而且失败率很高。机器学习可以加快这一过程,并在一小部分时间和成本内快速发现新药。这方面有很多公司在做,像递归( https://www.recursionpharma.com/
)、仁者 AI ( http://benevolent.ai/
)、Atomwise ( www.atomwise.com/
),包括大制药。
布伦丹·弗雷(Brendan Frey)领导的 Deep Genomics ( https://www.deepgenomics.com/
)公司能够训练一个神经网络来破译 RNA 非编码区背后的代码。基本上,它考虑用更长的核苷酸序列来训练一个深度网络。
9.5 其他应用
以下几节重点介绍一些其他应用。
9.5.1 用户体验
深度学习正在成为核心技术,使真正自然、无摩擦的用户与机器交互成为可能。语音识别已经达到人类水平的准确性,使语音而不是关键词成为与智能手机和其他智能设备交互的自然方式。这已经在个人助理亚马逊 Echo 或谷歌 Home 等产品中成为现实。这些设备专为全语音交互而设计,用自然语言回答问题。它们还可以与其他家用设备集成,创建更好的能源管理和安全系统。
DL 将通过交互和个性化来帮助重塑用户体验,以模糊人类和机器之间的界限。界面可以被简化、抽象,甚至对用户完全隐藏。UX 程序员的传统思维(如何创建滚动页面、按钮、点击和点击)是基于一个旧的范例。DL 输入允许非常自然的交互和个性化; https://techcrunch.com/2016/08/15/using-artificial-intelligence-to-create-invisible-ui/
见。
设备需要更多地了解我们,才能让隐形 UI 成为现实。今天的语境意识是有限的。例如,当通过谷歌地图问路时,系统知道你的位置,如果你是在纽约还是在加利福尼亚,它会返回不同的结果。
但是,即使有了所有的传感器和数据,机器也需要更多地了解我们,了解我们的世界正在发生什么,才能创造出我们真正需要的体验。一种解决方案是结合多个设备/传感器的能力来收集更多信息。但这通常会缩小和限制用户群——这并不是一件容易向客户推销的事情。
9.5.2 大数据
数据呈指数级增长,其中 80%是非结构化数据(如社交媒体、电子邮件记录、通话记录、客户服务、竞争对手和合作伙伴定价),这使得公司能够增强预测并探索隐藏的模式。DL 对于处理未标记的数据特别有用,因为它广泛使用了无监督的方法。
多模态学习将允许人们第一次将文本、声音、图像甚至视频结合在一个联合的知识表示中;这是一项已经在图像搜索中实现的技术。这将允许高级查询,例如“给我看一些与此图像相关但颜色更亮或形状更瘦的东西”,或者甚至“给我看一部电影,其中有一个场景是一个金发女孩在埃菲尔铁塔附近的日落时接吻”,或者甚至“给我看一个场景,其中有来自街道交通的巨大噪音。”
尽管人们对聊天机器人议论纷纷,但它们肯定会改变用户与内容互动的方式。对话比查询更自然,因为它可以通过迭代过程将问题置于上下文中。此外,它可以针对每个客户进行个性化设置,可以了解客户的更多信息,而且,也许最重要的是,这是一种更自然的交互。
谷歌最近为 Gmail 账户推出了自动回复选项,将根据谷歌人工智能建议的三个回复发送回复;它只对某些消息有效。您也可以使用建议的回答作为起点,根据自己的喜好编辑或添加文本。智能回复是基于 DNN 来预测一封电子邮件是否是某人可能会写一封简短回复的邮件。
9.6 未来
算法正在朝着我们留给人类的不那么传统和意想不到的任务发展。例子包括打扑克,处理谈判,甚至锻造关系。训练正从严格监督向更高层次、弱监督甚至无监督的模式演变。一个例子是通过展示一些例子来教机器人执行复杂的任务。强化学习的一个例子是,你输入游戏规则,算法通过与自己对抗来发现策略。
谈判是一个几年前不可想象的领域,你可以期待在这个领域取得重大进展。大多数聊天机器人已经可以进行简短的对话,并完成简单的任务,如预订餐馆或带语音助手的发型师。然而,建造能够与人类进行有意义对话的机器在不久的将来可能是遥不可及的,因为它需要对对话的理解和对世界的知识。
脸书人工智能研究(FAIR)团队发表了一篇论文( https://arxiv.org/abs/1706.05125
)介绍了具有协商能力的对话代理。研究人员表明,目标不同的对话代理可以与其他机器人或人进行从头到尾的谈判,同时达成共同的决定。值得注意的是,这些机器人可以达到不同的目标,解决冲突,然后谈判达成妥协。
每个代理都有自己的价值函数,表示它对每种类型的项目的关心程度。正如在生活中一样,双方都不知道对方的价值函数,必须从对话中推断出来。公平研究人员创造了许多这样的谈判场景,总是确保双方不可能同时得到最好的交易。
谈判同时是一个语言问题和一个推理问题,在这个过程中,一个意图必须被表达出来,然后在口头上实现。这种对话包含合作和对抗的成分,要求代理理解和制定长期计划,并生成话语来实现他们的目标。
具体来说,FAIR 开发了一种新技术,其中代理通过在对话结束时推出对话模型来模拟未来的对话,以便可以选择具有最大预期未来回报的话语。
十、DL 技术的业务影响
“很长一段时间,我对深度学习持怀疑态度,但现在的进展是真实的。结果是真实的。很管用。”——美国企业家马克·安德森
计算成本的下降和访问云管理集群的便利性以一种我们从未见过的方式使人工智能民主化。在过去,建立一个计算机集群来训练一个深度神经网络是非常昂贵的。你还需要一个拥有数学博士学位的人来理解关于循环神经网络等主题的学术研究论文。如今,用一台配有 GPU 的电脑,每月花几百美元就可以运行一个集群一整夜来试验新的算法。
人工智能已经从实验室出现,并坚定地进入商业世界,对流程和服务的自动化产生了巨大影响。例如,人工智能支持的 CRM 系统可以根据客户、公司和销售代表的信息,使用旨在最大化销售可能性的算法,实时向销售代表提供线索。
公司被迫建立自己的人工智能能力和团队,而不是依赖第三方顾问来获得这一关键能力。人工智能不能被视为一蹴而就的过程,而是商业战略中至关重要的组成部分。
DL 将深刻影响每一个行业,包括汽车工业、机器人、无人机、生物技术、金融或农业。根据 ARK Invest 的研究,基于深度学习的公司将在未来二十年内释放数万亿美元的生产力收益,并为全球股票增加 17 万亿美元的市值; https://ark-invest.com/research/artificial-intelligence-revolution
见。
以下是来自 https://ark-invest.com/research/artificial-intelligence-revolution
的一些主要预测:
- 到 2036 年,深度学习公司创造的市值将达到 17 万亿美元
- 到 2027 年,自主按需运输的收入将达到 6 万亿美元
- 到 2022 年,数据中心深度学习处理器的收入将达到 60 亿美元,在 5 年内增长超过 10 倍
- 160 亿美元的诊断放射学潜在市场
- 通过提高信用评分节省 1000 亿到 1700 亿美元的成本和利润
- 到 2035 年,自动化将为美国带来 12 万亿美元的实际 GDP 增长
自英特尔最初的奔腾处理器以来,处理器性能已经提高了大约五个数量级。但是深度学习程序的性能也取决于用于训练的数据量。由于互联网的规模和范围,深度学习以最小的成本访问非常大的数据集而蓬勃发展。虽然 1990 年的 LeCun 手写阅读器使用了从美国邮政服务收集的大约 10,000 个样本,但 2009 年的 ImageNet 数据集包含超过 1,000 万个高分辨率照片的例子。此外,百度的 DeepSpeech 是在超过 10,000 小时的音频数据上训练的,而传统数据集中只有几百小时。
从自由“参数”的数量来看,神经网络本身已经变得更大、更复杂。如今,拥有十亿个参数的网络很常见。更大的网络允许更强的表达能力来捕捉数据中的关系。今天的深度学习网络大约有一千万个参数,比 LeCun 最初的手写阅读器多四个数量级(见图 10-1 )。
图 10-1
Evolution of computational power and artificial neural networks
10.1 深度学习机会
基于深度学习的人工智能已经在改变大多数行业。人工智能将从根本上改变和自动化公司内部的众多功能,从定价、预算分配、欺诈检测和安全到营销优化。但对于一个充分利用人工智能的组织来说,它需要完全集成到所有不同的部门和职能中;这将使组织真正变得以客户为中心。
深度学习非常适合广告和点击信息等数据密集型活动。大多数数据将由手机收集,无数设备将提供实时地理参考信息。多模态学习将允许公司将文本、图像、视频和声音整合到一个统一的表示中。
应用于自动驾驶汽车等特定领域的 DL 技术的影响是显而易见的,其后果可能会彻底改变交通系统和汽车所有权。在其他领域,影响可能看起来不那么明显和直接;然而,随着 DL 技术的进步,更多的行业也将面临被颠覆的风险。将列举一些。
10.2 计算机视觉
深度学习算法是一种关键工具,用于自动化和加速对传感器生成的数据(包括图像)激增所产生的大型数据集的分析。
虽然基本的算法是相同的,但是信息的使用方式是不同的。计算机视觉在以下行业有着广泛的应用:汽车、体育和娱乐、消费和移动、机器人和机器视觉、医疗以及安全和监控。Tractica 估计这些细分市场的潜在市场总额为 350 亿美元。
然而,很少有公司拥有培训和部署机器视觉产品的专业知识和计算基础设施。计算机视觉即服务现在可以通过许多行业参与者的 API 获得,如微软和谷歌。这些服务允许公司将图像处理卸载到云中,对每张图像收费。服务包括分类、光学字符识别、面部检测和徽标检测。与亚马逊众包 Mechanical Turk 等服务的人工图像读取相比,这些基于云的 API 大约便宜一个数量级。
10.3 人工智能助手
由 DNNs 支持的 GAIs 最大、最直接的影响可能不是在机器人领域,而是在客户服务领域。在不久的将来,发送特定电子邮件、移动推送或特定商店或活动的客户通行证等服务可能会实现自动化,高级分析工具甚至会实现一些支持决策流程的自动化。联络中心处理非常普通的互动,很快将通过聊天机器人和个人助理等自动化信息服务。人工智能可以帮助建议如何进行对话、用户兴趣和产品。它甚至可以使用这些数据进行二次提议,例如基于以前交互的风险评估。
人工智能助手是能够进行人类水平的语音和理解的计算机程序。能够与人类对话、理解需求并帮助完成任务的算法将有利于提高生活质量和全球生产率。直到最近,这样的突破还仅限于科幻小说领域。但当苹果在 2011 年 10 月推出 Siri 时,AI 助手成为主流。谷歌在 2012 年紧随其后,微软 Cortana 和亚马逊 Echo 在 2014 年紧随其后。如今,许多其他公司都在竞相开发人工智能助手和聊天机器人,一些人认为它们的规模将超过应用经济。
语音交互在许多设备中已经很普遍,占谷歌搜索量的 20%以上。这之所以成为可能,是因为 DL 语音识别技术即使在嘈杂的环境中也非常准确(我们已经达到了人类水平的准确度),并且可以捕捉(并适应)每个用户的语音细微差别。DL 在语音识别方面获得的额外准确性现在达到了 96%以上,这看起来可能只是一个很小的增量,但从用户界面的角度来看,这是非常重要的;一个小小的错误可能就足以破坏一个平稳无摩擦的互动。
研究公司 Tractica 估计,全球消费者人工智能助理的使用将平均每年增长 25%,从 2015 年的 3.9 亿用户增加到 2021 年底的 18 亿用户。在同一时期,企业人工智能助手的用户预计将以 33%的年增长率增长,从 1.55 亿增加到 8.43 亿,如图 10-2 所示。人工智能助手通常分为两个阵营:基于语音的和基于文本的。Siri、Google Now、Cortana 和 Alexa/Echo 等基于语音的界面已经得到了广泛的采用和使用。基于文本的人工智能助手是新生事物,尚未实现主流采用。
图 10-2
Users of AI assistants (source: Tractica)
随着智能手机市场的成熟,开发者和投资者加大了对下一个大平台的搜索力度。消息机器人——主要通过文本操作的人工智能助手——可能是答案。关注消息机器人的一些原因是微信等公司在中国的成功(用户可以在对话应用程序中购买商品和支付账单),消息应用程序用户和时间的增长,以及自然语言处理中与深度学习相关的改进。
和 AI 一样,消息机器人可以是狭义的,也可以是广义的。狭义消息机器人执行非常具体的任务,例如回复电子邮件,而理论上,一般消息机器人可以执行任何任务,就像个人助理一样。
窄消息机器人已经在实际应用中成功部署。例如,人工智能助理 Amy by x.ai 可以为无法访问彼此日历的个人安排会议。Amy 阅读主持人的日历,并通过给被邀请者写和发送电子邮件来建议开放的时间段。收到回复后,她可以阅读并理解电子邮件,安排会议,或建议新的时间段来应对冲突。谷歌的智能回复也可以阅读一封邮件,并提出三个回复。据谷歌称,超过 10%的收件箱应用程序的电子邮件回复是通过智能回复发送的。
消息机器人的天然家园是在消息应用程序中。2016 年,微软、脸书和 Kik 都为各自的消息应用推出了聊天机器人平台。截至 2017 年 7 月,Messenger 上已有超过 11,000 个机器人启动,Kik 上有超过 20,000 个。这些机器人有一系列功能,从订购鲜花到查看天气,从推荐书籍到充当私人教练。
10.4 法律
随着 NLP 能力的提高,很自然地会对律师产生巨大的影响,自动完成复杂的搜索、自动语义查询等任务,甚至从零开始起草基于证据的完整论点。同时,随着机器变得聪明,意向性和所有权的概念也会变得模糊。像“谁应该为自动驾驶汽车发生事故负责?”可能很难回答:车主,厂家,还是车本身?
然而,当前教授这些机器的方法存在一些限制。
- 学习算法很慢,需要大量数据(通常需要数百万个数据点来正确训练一个模型)。
- 理解法律文本仍然是一个挑战,存在巨大的错误和遗漏空间。
- 模型不容易解释。
尽管如此,一些公司还是蒸蒸日上。DoNotPay 是一家自动化停车罚单上诉过程的初创公司。它已经成功地处理了 16 万张停车罚单,成功率为 64%。对话机器人能够在美国所有 50 个州和整个英国帮助解决 1000 多个不同的法律问题。用户只需在搜索栏中输入问题,就会弹出针对他们所在位置的相关帮助链接。在浏览了不同的选项后,聊天机器人会提出问题,并整理出一封信或其他法律文件。机器人可以帮助写信或填写表格,解决产假申请、房东纠纷、保险索赔和骚扰等问题。该公司已经节省了大约 930 万美元的罚款。
10.5 放射学和医学影像
深度学习正在诊断放射学方面取得快速进展。方舟报告估计,计算机辅助诊断软件的全球潜在市场总额可能达到 160 亿美元。从今天的 10 亿美元收入来看,医疗软件公司和成像设备制造商的年平均增长率可能为 20%至 35%,因为深度学习可以提高他们的生产力,并在未来 10 至 15 年内创造新产品和服务。
诊断放射学对现代医疗保健至关重要;然而,医学图像的视觉解释是一个费力且容易出错的过程。根据 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1955762/
,历史上放射科医生的平均诊断错误率约为 30%。由于技术不成熟,肺癌结节经常被遗漏,特别是在发展的早期阶段,8%到 10%的骨折被遗漏或误诊。最初,放射科医生错过了回顾性检查中可见的乳房 x 光照片中大约三分之二的乳腺癌。
由深度学习驱动的智能软件有可能改变现状。早期的结果很有希望:最新的深度学习系统已经在各种诊断任务中超过了放射科医生和现有的算法。
早期诊断是成功治疗的关键。根据英国癌症研究中心的数据,每年全世界有超过 200 万人死于肺癌和乳腺癌。如果 10%的晚期病例可以在第一阶段用计算机辅助设计(CAD)发现,ARK 估计这将节省 15 万生命年。以每年 50,000 美元计算,第一阶段 51 例乳房或肺部诊断将相当于挽救 76 亿美元的生命价值。从骨折到阿尔茨海默氏病,深度学习的价值会大几个数量级,影响广泛的放射学问题。
美国国立卫生研究院发布了一个庞大的胸部 x 光数据集,由来自 3 万多名患者的 10 万张照片组成( https://www.nih.gov/news-events/news-releases/nih-clinical-center-provides-one-largest-publicly-available-chest-x-ray-datasets-scientific-community
)。预计几个月后会有一个大的 CT 扫描数据集。
ARK 估计 CAD 软件的市场规模可能达到 160 亿美元。这一估计是基于美国 34,000 名放射科医生每年审查 20,000 例病例。鉴于放射科医生为现有的图像存档和通信系统(PACS)支付每例 2 美元,一个比人类更好的诊断系统的价格可能是每例 10 美元。假设全部采用,仅美国市场就价值 68 亿美元。
葛兰素史克正通过致力于人工智能驱动的药物发现的公司 Exscientia 投资 4300 万美元用于人工智能驱动的药物开发。其目的是在多个治疗领域中为多达 10 个疾病相关靶点发现新的选择性小分子。
10.6 自动驾驶汽车
考虑到 94%的车祸源于人为错误,而且欧洲的司机平均每周要花 6 个小时在交通堵塞上,不难接受深度学习最具变革性的应用之一是自动驾驶汽车。根据一些估计,自动驾驶汽车可以减少多达 90%的城市交通,并增加同样多的免费空间,目前专用于停车。
如果没有深度学习,完全自动驾驶的汽车将是不可想象的。在街道、天气条件和不可预测的交通中导航车辆是一个开放式问题,深度学习等学习算法可以解决这个问题。ARK 认为,深度学习是 4 级或更高级别自动驾驶(5 级对应全自动驾驶汽车)的基本要求。
深度学习解决了自动驾驶面临的两个关键问题:感知和路径规划。神经网络允许计算机将世界划分为可行驶和不可行驶的路径,检测障碍物,解释路标,并对交通灯做出反应。此外,通过强化学习,神经网络可以学习如何改变车道,使用环形交叉路口,以及在复杂的交通条件下导航。
虽然自动驾驶系统尚未达到自动驾驶所需的水平,但从谷歌和其他公司观察到的进展速度表明,自动驾驶技术将在这个十年结束前问世。
完全部署的自动驾驶技术将降低运输成本,并实现移动即服务(MaaS)。根据 ARK 的研究,到 2020 年,不仅大多数汽车将拥有自动驾驶功能,而且旅行成本将降至每英里 0.35 美元,大约是人类驾驶出租车成本的十分之一。因此,交通将主要过渡到按需模式,将大量新消费者引入点对点移动市场。到 2027 年,自动驾驶的里程数将从微不足道大幅上升至每年 18 万亿英里。按照每英里 0.35 美元的价格,未来十年,自主按需运输市场将接近 6 万亿美元的规模。
10.7 数据中心
深度学习作为一种新的高要求工作负载的增长意味着超大规模数据中心将需要大力投资深度学习加速器,无论它们是 GPU、FPGAs 还是 ASICs。ARK 估计,深度学习加速器的收入将每年增长 70%,从 2016 年的 4 亿美元增长到 2022 年的 60 亿美元。根据研究,到那时,加速器收入的大约一半将用于训练,另一半用于推理。
培训目前占据了大部分收入,因为加速器是高效培训的必备工具。相反,推理可以在标准服务器上运行。由于超大规模供应商的持续投资,云中基于 GPU 的服务器的可用性增加,以及非互联网行业对深度学习的采用,特别是汽车公司,该技术将是自动驾驶汽车的关键,因此训练模型应该增长到 30 亿美元的业务。
随着基于深度学习的服务在网络和移动应用中变得无处不在,推理需求应该会增长,并推动对加速器的需求。微软在各自数据中心部署 FPGAs 和谷歌推出 TPU 表明这一趋势已经开始。我们预计超大规模互联网公司将推动大部分投资,本地企业部署将落后大约两年。
10.8 与 DL 建立竞争优势
DL 要么与初创公司联系在一起,要么与谷歌、亚马逊或百度等大公司联系在一起。然而,传统企业也可以从这种快速利用竞争格局的变革性技术中获利。
从业务角度来看,重要的是要有数据科学基础和深度学习背后的算法的坚实基础,以掌握其在组织内的深远战略影响,而不是一味地炒作。拥有以数据为中心的业务文化的含义不仅对特定的问题有用,而且正在展现一组力量,这些力量将导致在不同的部门中应用类似的方法。
以客户为中心的观点需要收集大量的数据,以及对非结构化数据进行稳健学习的能力。DL 为这种方法提供了工具,这种方法与传统的营销活动相比,可以提供实质性的提升,例如针对正确的客户。
这些想法扩散到在线广告行业和在线广告,以纳入在线社会联系的数据。公司考虑如何从他们的数据和数据科学能力中获得竞争优势。数据是一种战略资产,但您需要仔细考虑数据和数据科学如何在您的业务战略环境中提供价值,以及它是否会在您的竞争对手的战略环境中提供同样的价值。
有时,创造战略价值的不是数据,也不是算法,而是如何将提取的见解用于改进产品、客户服务,以及最重要的是,重组业务流程以实现业务转型。预测模型的有效性可能主要取决于问题工程、创建的属性、不同模型的组合等等。即使算法已经发布,许多实现细节对于让一个在实验室有效的解决方案在生产中发挥作用可能是至关重要的。
成功也可能依赖于无形资产,如公司文化——接受商业试验的文化与不接受商业试验的文化完全不同。成功的标准不是数据科学家设计的模型的准确性;它是从业务实现中创造的价值。
10.9 人才
数据科学只有在有才华的数据科学家团队中才有可能实现——这是很难找到的,尤其是在 DL 中。任何人都可以称自己为数据科学家,但不幸的是,很少有公司注意到这一点。必须至少有一名顶级数据科学家才能真正评估潜在雇员的质量,因为优秀的数据科学家喜欢与其他顶级数据科学家合作。
优秀的数据科学经理还必须具备一系列其他能力,这些能力在个人身上很少见。
- 他们需要真正理解和重视业务需求。此外,他们应该能够预测业务需求,以便能够与其他职能领域的同行互动,为新的数据科学产品和服务出谋划策。
- 他们需要能够与“技术人员”和“西装革履者”很好地沟通,并得到他们的尊重;通常这意味着将数据科学术语(本书试图尽量减少)翻译成业务术语,反之亦然。
- 他们需要协调技术上复杂的活动,例如具有业务约束和成本的多个模型或过程的集成。他们通常需要理解业务的技术架构,例如数据系统或生产软件系统,以确保团队产生的解决方案在实践中确实有用。
- 他们需要能够预测数据科学项目的结果。数据科学类似于 R&D,所以他们只是提供投资指导。对于一个研究项目的成功,只有一个可靠的预测指标,而且是高度可预测的:研究者先前的成功。
- 他们需要在特定公司的文化中完成所有这些工作。
最后,对于竞争对手来说,复制数据科学能力可能很困难或很昂贵,因为他们可以更好地雇佣数据科学家和数据科学经理。从数据资产中获得最大价值的两个最重要的因素是,公司的管理层必须分析性地思考数据,公司的管理层必须创造一种数据科学和数据科学家蓬勃发展的文化。
伟大的数据科学家和普通的数据科学家之间,伟大的数据科学团队和伟大的数据科学家个人之间的效率有着巨大的差异。
然而,市场困难并不意味着失去了一切。许多数据科学家希望拥有比在大型企业中更大的个人影响力。许多人希望在产生数据科学解决方案的更广泛的过程中承担更多责任(以及随之而来的经验)。有些人有成为公司首席科学家的愿景,并且明白在更小、更多样化的公司中从事项目可能会更好地铺平通往首席科学家的道路。一些人有成为企业家的愿景,并明白成为初创公司的早期数据科学家可以给他们带来宝贵的经验。有些人只是享受参与快速增长的风险投资的兴奋感:在一家年增长率为 20%或 50%的公司工作与在一家年增长率为 5%或 10%(或者根本没有增长)的公司工作有很大不同。在所有这些情况下,在招聘方面具有优势的公司是那些创造了培养数据科学和数据科学家的环境的公司。如果你没有足够数量的数据科学家,要有创造力。鼓励您的数据科学家加入本地数据科学技术社区和全球数据科学学术社区。
10.10 这不仅关乎准确性
Wise.io 的联合创始人约书亚·布鲁姆(Joshua Bloom)在他的博客文章“我们应该如何优化构建人工智能系统的价值链”( www.wise.io/tech/towards_cost-optimized_artificial_intelligence
)中提出了一个中肯的观点。大多数人工智能研究都将优化准确性视为圣杯。还应考虑交付生产就绪型解决方案的时间和成本等其他因素。用他的话说,“我们优化什么取决于我们俯视问题的高度。在各个层面,我们关注不同的事情。”退房 https://www.youtube.com/watch?v=i-1UmCYyzi4
。
在评估算法的可用性时,他考虑了三个层次的重要性。
- 算法/模型:学习率、凸性、误差界限/保证、缩放
- 软件/硬件:真实数据的准确性/性能、训练期间的内存使用、预测期间的内存使用、磁盘使用要求、CPU 需求、学习时间、预测时间
- 项目:人员需求(数据科学家、软件工程师、开发运营)、实现概念验证/撰写论文的时间、边际附加资源成本、生产中模型的可靠性/稳定性、模型管理/可维护性、可实验性
- 组织:机会成本、结果与公司其他业务线的相互作用、项目的市场价值、项目工作的损益、完成项目的长期收益(例如,从招聘的角度)、支持人员的成本
- 消费者:结果的直接价值、可用性、可解释性、可操作性
- 社会:结果的影响(例如,国内生产总值的剩余收益,人民的福利)
说明这一点的著名案例是网飞 100 万美元竞赛,获胜的解决方案没有实现,因为增量收益很小,同时需要计算成本和复杂性。
10.11 风险
人工智能并非没有风险。Techcrunch 上的一篇有趣的博客文章( https://techcrunch.com/2016/09/16/hard-questions-about-bot-ethics/
)提出了一些问题和假设,即随着我们全面进入信息革命,社会中不平等和排斥的风险因技术而大大加快。
凯茜·奥尼尔有一个有趣的博客,她在博客中讨论了由算法管理社会的副作用。她还出版了一本有趣的书,名为《数学毁灭的武器》[O’N03],她在书中提到了一些偏见、副作用和严重的问题,如果太多重要的决定被放在没有人真正理解的“模糊”算法手中。
10.12 当个人助理变得比我们更优秀
虚拟助理在未来将发挥至关重要的作用,从订购披萨等最平凡的任务到健康甚至治疗建议等最微妙的任务都将有所帮助。他们还将监控我们的大部分生活,跟踪我们几乎所有的活动,无论是线上还是线下。虚拟助手将在管理不同设备和使用收集的数据帮助用户做出明智决定方面发挥至关重要的作用。虚拟助手将变得更加自主,并理解上下文,以便理解“我冷”意味着它必须打开恒温器。
助理甚至可以帮我们约会。Alexa 已经与约会网站 eHarmony 合作,搜索具有共同兴趣的可能匹配。将来,她可能会代表我们迈出第一步,与你潜在伴侣的私人助理开始最初的对话。
但是,当个人数字助理变得比我们更聪明,比我们最亲近的人更了解我们时,会发生什么呢?
目前的数字助理大多是反应式的。他们一直等到你让他们做某件事,而不是预测用户的需求。将来,它们会更加复杂。在不久的将来,你的汽车可能能够读懂你的表情,识别出你的悲伤,并播放适当的音乐或设置适合你情绪的驾驶模式。它们将变得更加自主,也更加适应用户的特殊性。
就像我们把宠物当作家庭成员一样,数字助理可能会获得一种“像活人一样”的地位,成为我们的一部分。一旦人类能够理解我们并通过声音交流,我们就会像对待人类一样对待事物。
但是对于能够帮助解决这种个人问题的个人数字助理来说,它需要被给予大量的个人信息。隐私和安全风险非常大。警察能把 Alexa 作为谋杀证人吗?老大哥没在看着你,但 Alexa 可能会…
助手很快不仅会对命令做出反应,还会对对话做出反应。如果你认为脸书储存了很多关于你的信息,想象一下一个虚拟助理可能会知道你什么。它可能比你最亲密的朋友更了解你,包括你去过哪里,你做过什么,你和谁在一起,你们谈了什么,以及你是如何到达那里的。
十一、新的研究和未来方向
有几个领域深度学习非常活跃,几乎每周都有突破出现。强化学习及其在机器人和模拟代理中的应用显然是最活跃的领域之一。图像、视频和语音识别仍然是活跃的领域。NLP 正在显著改善,但也许在不久的将来人类水平的性能是遥不可及的,因为它可能是最难的领域之一。(对于深度学习应用于 NLP 的一些批评,参见 https://medium.com/@yoav.goldberg/an-adversarial-review-of-adversarial-generation-of-natural-language-409ac3378bd7
。)
通过大型 rnn,自然语言处理、语音识别和自动视频分析中的许多监督任务可能很快变得微不足道。在不久的将来,监督学习 RNNs 和强化学习都将得到很大的发展。当前的大型人工神经网络具有大约十亿个连接;很快这个数字将会是一万亿,以同样的价格。相比之下,人类大脑有数万亿个——慢得多——连接。
在很大程度上,机器学习的进展是由在具有数百万人类标记的样本的大规模数据集上进行训练的好处推动的。但这种方法从长远来看是不可行的,而且这与人类的学习方式相去甚远。无监督学习需要更多的进展,就像正在生成网络上开发的工作一样。
11.1 研究
尽管图像、语音、机器人和视频处理仍然是广泛使用 CNN 和 LSTM 的非常重要的研究领域,但 DL 在这些领域非常活跃:
- 强化学习,或弱监督学习
- 注意机制
- 一次性学习和知识转移
- 多模态学习
- 生成对抗网络
在谷歌最近的一项研究工作( https://arxiv.org/abs/1707.02968
)中,作者表明训练数据的大小非常重要。他们使用了 3 亿张图像的数据集,分为 18,291 个类别,并训练了几个 DL 架构:AlexNet,VGG,ResNet 50,ResNet 101 和 Inception-ResNet v2。他们证明,通过使用更多的训练数据,甚至更简单的架构也能获得相当大的准确性。您可以在 https://research.googleblog.com/2017/07/revisiting-unreasonable-effectiveness.html
了解更多信息。
这些是其他的结论:
图 11-1
Importance of data size in training DL models (source: https://research.googleblog.com/2017/07/revisiting-unreasonable-effectiveness.html
)
- 大型数据集有助于表示学习,并用于预训练模型。
- 性能随着训练数据的数量级线性增加。即使在 3 亿张图像上,也没有观察到饱和。
- 能力至关重要。为了适应数据的复杂性,需要大而深的网络。对于 ResNet-50,COCO 对象检测基准的增益(1.87%)比使用 ResNet-152 时的增益(3%)小得多(见图 11-1 )。
注意
注意机制对于文本、图像注释和视频处理非常关键,因为它们允许您通过学习输入图层应关注的位置的掩码来处理可变(潜在的无限)大小的输入。注意机制主要用于文本或文本和图像的组合(如视觉 V&A),有 CNN 和 LSTM。“注意力是你所需要的全部”( https://arxiv.org/abs/1706.03762
)这篇论文描述了作者如何用一种完全依赖注意力的机制(变压器)来取代 RNN,以绘制输入和输出之间的全局依赖关系。他们减少了进入网络的离散成分的数量,将典型的递归和卷积映射层替换为使用注意力的映射层。“作者表示,我们计划将转换器扩展到涉及文本以外的输入和输出模式的问题,并研究局部、受限的注意力机制,以有效处理大量输入和输出,如图像、音频和视频。我们的另一个研究目标是让世代变得不那么连续。”
关于如何使用 Keras 在 CNN 中实现注意机制的简单示例,请参见 www.danvatterott.com/blog/2016/09/20/attention-in-a-convolutional-neural-net/
。
11.1.2 多模式学习
多模态学习,即从多个来源(文本、图像、视频等)学习的能力。),是一个活跃的研究领域,在未来仍将如此。
能够将结构化和非结构化信息聚合在一个统一的分布式表示中会产生一个强大的框架,并使我们离解决符号基础问题更近了一步。例如,根据[ARDK16],仅给定三元组(问题、世界、答案)作为训练数据,模型学习从神经模型的库存中组装神经网络,并同时学习这些模块的权重,以便它们可以组成新的结构。他们将组合问答方法扩展到复杂、连续的世界表示,如图像。换句话说,他们用动态的网络拓扑取代了固定的网络拓扑,从而适应了为每个问题执行的计算,使用更复杂的网络来解决更困难的问题,这对小数据集非常有效。
Quoc Le 等人( https://arxiv.org/abs/1511.04834
)的梯度下降工作也有很多破坏性的潜力,因为它允许神经网络学习创建新的程序。这种方法代表了我们构思计算机编程方式的一种范式转变,从离散的离散/符号方法到完全可微的连续替代方法。
麻省理工学院最近的一篇论文( http://people.csail.mit.edu/yusuf/see-hear-read/paper.pdf
)结合了声音、图像和文本,采用了一种有趣的方法,并在使用跨模态数据对对象和实体进行分类方面产生了令人印象深刻的结果。
谷歌发表了一篇名为“一个模型来了解所有人”( https://arxiv.org/pdf/1706.05137.pdf
)的论文,其中它对跨越多个领域的大量不同数据源使用了一个模型。该模型同时在 ImageNet、翻译任务、图像字幕、语音识别和英语解析上被训练。该模型包含卷积层、注意机制和稀疏门控层。作者观察到,数据较少的任务在很大程度上受益于与其他任务的联合训练,而大型任务的表现仅略有下降。这项工作无疑使我们更接近一个能够解决任何任务的通用算法。
一次性学习
一次学习,或称零次学习,也是一个令人兴奋的研究领域。在 DeepMind ( https://arxiv.org/abs/1605.06065
)最近的一项工作中,该团队试图捕捉人类遇到新概念(用一个或几个例子)的能力,并进行归纳,以创建概念的新版本。核心解决方案是一种描述概率过程的方法,通过该方法可以生成观察到的数据点(例如,手写的“8”)。作者使用深度神经网络来指定这一概率过程,并表明他们的模型能够从少量观察中生成书面字符和人脸。
对于机器来说,一次性学习是一项特别复杂的任务,而对于人类来说却是一项微不足道的任务。问题在于,DL 模型通常依赖于基于梯度的优化来调整网络中每个神经元的权重,这需要大量数据和通过网络的迭代。
在“用记忆增强神经网络进行一次性学习”( https://arxiv.org/abs/1605.06065
)的论文中,谷歌 DeepMind 开发了一种能够通过从少量数据中得出有效推论来学习新行为的网络。作者使用了两层学习(元学习)方法,并表明具有记忆的神经网络能够将元学习应用于 Omniglot 分类任务(1600 个类,每个类只有几个例子)。该网络比最先进的网络表现更好,甚至可以超过人类。它通过慢慢学习原始数据的有用表示来做到这一点,然后使用外部存储器来快速绑定新信息。
学习 CNN 中的大量参数需要非常大的训练数据集。几个作者,像蒂莫西·霍斯佩达莱斯( www.eecs.qmul.ac.uk/tmh/
),已经致力于广泛的研究工作,致力于被称为零射击学习的技术。在最近的一项工作( https://arxiv.org/abs/1603.06470
)中,作者使用 CNN 进行人脸识别,使用一种人脸合成方法,交换不同人脸图像的面部成分以生成新的人脸。他们在野外(LFW)和 CASIA NIR-VIS2.0 的线性人脸数据集上实现了最先进的人脸识别性能。在未来,您将把这项技术应用到更多的人脸分析应用中。
在论文“一次性模仿学习”( https://arxiv.org/pdf/1703.07326.pdf
)中,作者提出了一种新的模仿学习方法,从很少的演示中学习,并能够在相同的上下文中推广到新的情况。他们的元学习框架使用神经网络,该神经网络将一个演示和当前状态作为输入,并输出一个动作,目标是状态和动作的结果序列尽可能与第二个演示匹配;http://bit.ly/one-shot-imitation
见。
在斯坦福大学一个小组最近的工作( https://arxiv.org/pdf/1611.03199.pdf
)中,作者探索了一套在大量训练数据不可用时扩展 DL 适用性的技术。他们展示了如何使用一次性学习来显著降低在药物发现应用中进行有意义的预测所需的数据量。他们使用了一种名为残差 LSTM 嵌入的架构,当与图形卷积神经网络结合时,可以显著提高在小分子上学习有意义的距离度量的能力。他们的模型在一个名为 DeepChem ( http://deepchem.io/
)的库中开源。
强化学习和推理
大多数积极的强化学习研究都与具有共享模型的代理学习环境有关,或者与同一环境中的相互交互和学习有关,例如学习在迷宫或城市街道等 3D 环境中自主驾驶。反向强化是从观察到的行为中学习任务的目标(例如,学习驾驶或赋予非玩家视频游戏角色类似人类的行为)。
在最近的工作“分层深度强化学习:整合时态抽象和内在动机 Deep mind”(http://arxiv.org/pdf/1604.06057.pdf
)中,作者利用好奇心驱动代理在具有挑战性的雅达利游戏 Montezuma Revenge 中取得了一些成功。
Q 学习之外的无模型学习方法也非常活跃,在 https://github.com/karpathy/paper-notes/blob/master/vin.md
有描述。
最近的一项工作( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5299026/
)表明,使用 CNN 和 RNNs 的编码模型可以用于预测大脑对感官刺激的反应,从而模拟感官信息在大脑中的表达方式。他们研究了循环神经网络模型的合理性,以“表示内部记忆,并对任意特征序列进行非线性处理,以预测功能性磁共振成像测量的特征诱发反应序列”,发现它们远远优于岭回归模型。
Sergey Levine 在 https://www.youtube.com/watch?v=eKaYnXQUb2g
的视频是一个很好的资源,有助于理解 DL 在控制理论方面的理论和改进,并总结了一些最新成果。
dnn 的一个缺点是它们很难明确地提取层次结构,就像在图形贝叶斯模型中一样。人工神经网络从图像和文本等非结构化数据中进行复杂的预测,但几乎没有可解释的结构。用于图像理解的结构化模型很难具有足够的表达能力来捕捉数据的复杂性,并且易于进行易处理的推理。
Hinton 最近的一项工作显示了如何通过结合结构化和非结构化学习来克服这些困难,超越其他非结构化的深度生成方法,如 VAEs,这些方法不容易解释[EHW + 16]。结构化生成方法在很大程度上与深度学习不兼容,因此推理既困难又缓慢(例如,通过 MCMC)。Hinton 使用结构化概率模型和深度网络的混合,通过学习和摊销推理进行场景解释。该模型通过适当的部分或全部指定的生成模型,而不是来自标签的监督,在它的表示上强加结构; www.cs.toronto.edu/%20hinton/absps/AttendInferRepeat.pdf
见。所提出的框架关键地允许对给定场景的复杂性(其潜在空间的维度)进行推理。
关系推理是 GAI 的核心组成部分,但已经证明很难用人工神经网络来解决。最近 Google 提出了一个项目来处理关系推理的难题。其作品( https://arxiv.org/abs/1706.01427
)提出了一个有趣的解决方案。谷歌在三个任务上测试了一个模型:在一个名为 CLEVR 的数据集上进行视觉问答(VQA),达到了最先进(超人)的性能;使用 bAbI 任务集的基于文本的问题回答;和关于动态物理系统的复杂推理。Google 证明了卷积网络不具有解决关系问题的一般能力,但是当用关系网络扩充时可以获得这种能力。
在最近的两篇论文( https://deepmind.com/blog/agents-imagine-and-plan/
)中,DeepMind 描述了一系列新的基于想象的规划方法。它还介绍了为代理学习和构建计划提供新方法的体系结构,以最大化任务的效率。这些架构是高效的,对复杂的和不完美的模型是健壮的,并且它们可以采用灵活的策略来开发它们的想象力。他们引入的代理受益于“想象力编码器”,这是一种神经网络,它学习提取任何对代理未来决策有用的信息,但忽略不相关的信息。DeepMind 在多个任务上测试了所提出的架构,包括益智游戏推箱子和宇宙飞船导航游戏。
11.1.5 生成神经网络
虽然不是新的,生成神经网络(GNNs)正在成为一个活跃的研究领域。深度生成模型是一种强大的无监督和半监督学习方法,其目标是在不依赖外部标签的情况下发现数据中的隐藏结构。
生成模型在概率密度估计、图像去噪和修复、数据压缩、场景理解、表示学习、3D 场景构建、半监督分类和分级控制中具有应用。
有三种主要类型的生成模型:完全观察模型、潜在变量模型和转换模型。每一个都有特定的推理机制。这些算法包括自回归分布估计器、变分自编码器和生成对抗网络。使用潜在变量的深度生成模型的例子包括深度信念网络、变分自编码器以及无记忆和摊销推理。
原则上,生成模型比判别模型具有更丰富的解释能力。
- 它们能够表示数据中潜在的(隐藏的)结构及其不变量,例如,光强、旋转、亮度或 3D 对象布局的概念。
- 他们可以把世界想象成“它可能是”的样子,而不是“它所呈现的样子”
- 它们能够表达的不仅仅是输入和输出之间的简单联系。
- 他们可以在数据中发现令人惊讶但似乎可信的事件。
生成模型可用于插补,例如,图像嵌入(遮挡、补丁移除)、3D 生成、一次性学习和表示学习(用于控制)。
所有的生成网络都共享使用潜在变量来表示观察到的数据的思想,并且它们在不久的将来将继续非常相关。
11.1.6 生成对抗性神经网络
生成对抗性神经网络是一个活跃的研究领域。有关 GANs 的有趣应用列表,请参见位于 https://github.com/nashory/gans-awesome-applications
的资源库。
gan 对于风格转换和用作生成模型特别有用。另一个优点是,他们可以通过避免计算配分函数中的归一化因子来估计概率密度。
使用 GANs,可以做到以下几点:
- 模拟训练数据
- 处理丢失的数据(图像修复、半监督学习)
- 为一个输入提供多个正确答案
- 生成逼真的图像
- 通过预测进行模拟
- 解决困难的推理问题
- 学习有用的嵌入
- 控制潜在空间来表示插值(姿势,年龄等。)
这些模型的缺点是不稳定,难以训练。OpenAI 发表了一篇详细的博客文章,介绍了一些技巧,如何解决训练 GANs 的一些问题,使它们在图像生成方面更加稳定。作者为 GANs 提出了新的架构特征和训练程序,包括半监督学习和人类现实图像的生成。他们用其他目标训练模型,而不是给测试数据分配高可能性,或者在没有标记数据的情况下学习得很好。他们在 MNIST、CIFAR-10 和 SVHN 上实现了半监督分类的最新成果。该模型生成了人类无法从真实数据中区分的 MNIST 样本,并生成了 CIFAR-10 样本,其人为错误率为 21.3%。
像 Photoshop 这样以创意为导向的应用程序有可能让艺术家仅根据高层次的描述就能变出照片。例如,艺术家可以要求应用程序绘制一个有现代家具、大窗户、午后阳光和两个孩子的卧室。一个生成网络,已经在卧室照片和室内装饰杂志的大型语料库上训练过,将能够在几秒钟内创建这样的图片。在检查完第一次渲染后,艺术家可以要求更大的窗户,墙上不同颜色的油漆,等等。因为神经网络理解不同抽象层的图像,在对象级别,它们有能力进行这些改变并实现完整的工作流。
Hyland 等人提出了一种用于生成实值医学时间序列生成的 GAN,采用递归条件 GAN(https://arxiv.org/pdf/1706.02633.pdf
)。这是一种有趣的方法,因为由于监管问题,医疗数据很难获得。
GAN 方法是强大的,因为它适用于难以评估可能性或梯度的模型;所需要的只是一个生成过程,给定一个随机种子,生成一个样本数据对象。具体而言,GAN 方法避免了例如期望最大化算法中所需的计算成本高的推断步骤。Arakaki 和 Barello capture(https://arxiv.org/pdf/1707.04582.pdf
)最近的一项工作使用 GANs 来拟合生物神经元网络的选择性响应的参数,从而避免建立具有预定义可能性和先验的显式推理模型。
11.1.7 知识转移和学会学习
从几个例子中学习并能够快速归纳是人类智力最臭名昭著的特征之一。任何人工智能代理都应该能够从少数几个例子中快速学习和适应,并且应该随着更多例子的出现而继续适应。这种快速灵活的学习是具有挑战性的,因为代理必须将其先前的经验与少量的新信息相结合,同时避免过度适应新数据。此外,先前经验和新数据的形式将取决于任务。因此,为了获得最大的适用性,学习的机制(或元学习)应该对任务和完成任务所需的计算形式通用。
Finn 等人提出了一种非常高效的元学习算法,能够从先前训练好的网络中快速适应新的任务( https://arxiv.org/pdf/1703.03400.pdf
)。例如,一个被训练行走的机器人可以很快被重新训练奔跑。
一些有前途的新算法,如由 Lake、Salakhutdinov 和 Tenenbaum [LST15]提出的算法,将有助于解决 DNNs 的一个有问题的方面,即它们很难从几个例子中学习和转移知识,以便它们可以仅基于几个观察结果来合并新知识。作者称之为贝叶斯程序学习(BPL)框架,它通过使用潜在的概念为每个类生成一个独特的程序来工作。该软件不仅能够模仿儿童获得读写能力的方式,还能够模仿已经知道如何识别并重建手写字符的成年人的方式。
Long 等人[LCWJ15]还提出了一种有趣的架构来处理知识转移,称为深度适应网络(d an),它通过显式减少域差异来增强深度神经网络的任务特定层中的特征转移能力,从而将 CNN 推广到域适应场景。所有任务特定层的隐藏表示被嵌入到再生核希尔伯特空间中,在该空间中不同域分布的平均嵌入可以被显式匹配。他们在 KT 中从不同来源的图像中获得了最先进的结果。
Esmali 等人[EHW + 16]最近提出了一种通过潜在空间的变分推理来捕获层次结构图像的方案。他们将推理视为一个迭代过程,实现为一个循环神经网络,一次关注一个对象,并学会对每幅图像使用适当数量的推理步骤。这允许通过利用迭代来捕获可扩展的视觉表示,并且还可以通过实现递归推理网络来扩展,从而捕获潜在变量之间的后验相关性,例如考虑到场景的部分已经被解释的事实。
11.2 何时不使用深度学习
有时候,深度学习可能是一种障碍,而不是一种资产。DL 包含灵活的模型,具有多种架构和节点类型、优化器和正则化策略。根据应用的不同,模型可能有卷积层。(各层应该有多宽多深?过滤器的尺寸是多少,有多少个?池操作是最大值还是平均值?).或者它可能有一个循环结构。(是单向的还是双向的?是 LSTM 还是 GRU?)它可能很深,或者只有几个隐藏层。(它有几个单元?)它可以使用校正线性单元或其他激活功能。它可能有也可能没有辍学。(在哪几层?用几分?).权重可能应该被正则化(l1、l2 或其他)。应该应用什么损失函数?
这只是部分列表;还有许多其他细节可能会影响网络的性能(正则化、传递函数、损失函数、优化器),还有许多超参数需要调整,还有许多架构需要探索。谷歌最近吹嘘说,它的 AutoML 管道可以自动找到最佳架构,这令人印象深刻,但它仍然需要 800 多个 GPU 全天候运转数周,这几乎是其他任何人都无法企及的。关键是训练深度网络在计算和调试时间上都需要很大的成本。这样的花费对于许多日常的预测问题和对它们调整深网的投资回报率来说是没有意义的。
即使有足够的预算和承诺,也没有理由不首先尝试替代方法,即使是作为基线。您可能会惊喜地发现,SVM 或 XGBoost 正是您所需要的。
11.3 新闻
本节重点介绍人工智能领域的一些新闻和重要发展。
- OpenAI 最近的一篇博客文章(
https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/
)介绍了一种学习算法,它使用少量的人类反馈在复杂的 RL 环境中导航。该算法需要来自人类评估者的 900 位反馈来学习后空翻——这是一项看似简单的任务,很容易判断,但很难指定。 - 参见
https://medium.com/@pavelkordik/recent-developments-in-artificial-intelligence-b64286daa06b
的博客文章,获得关于 DL 最新发展的精彩教程。 - 超分辨率图像处理是一个新的研究领域。Ledig 等人提出了一种基于 GAN 的技术(
https://arxiv.org/abs/1609.04802
),称为超分辨率(SRGAN),用于实现 4 倍放大因子的真实感自然图像。 - 还是在图像超分辨率方面,Dahl 等人提出了(
https://arxiv.org/abs/1702.00783
)像素递归超分辨率模型,在增强图像分辨率的同时,将逼真的细节合成到图像中。使用 PixelCNN 架构,该模型能够通过对低分辨率输入条件下的高分辨率图像像素之间的统计依赖性进行建模来表示多模态条件分布。 - 有几种最近的图像修复技术,这意味着填充从图像中隐藏的片段。例如,参见“使用 DCGAN 进行感知和上下文损失的图像修复:深度卷积生成对抗网络”(
http://arxiv.org/pdf/1607.07539v1.pdf
)。 - 如前所述,DL 机器本质上是黑盒。最近的工作“我为什么应该相信你”(
https://arxiv.org/abs/1602.04938
)是一篇非常有趣的论文,它使 DL 机器在从数据中学习到的特征方面更加可解释和透明。参见www.myaooo.com/wp-content/uploads/2017/08/understanding-hidden-memories-camera.pdf
关于如何让 LSTM 变得可译。 - 深度学习也被应用于事件时空数据[DDT+16];亦见
https://www.mpi-sws.org/manuelgr/pubs/rmtpp.pdf
。根据观察到的事件序列,作者可以预测未来的事件。准确估计临床事件可能发生的时间可以有效地促进针对患者的护理和预防,以降低潜在的未来风险。另见本作关于时空预测:https://arxiv.org/pdf/1706.06279.pdf
。
11.4 人工智能在社会中的伦理和影响
随着计算机算法变得越来越复杂,机器开始做出更复杂、影响更大的决定——最终是生死攸关的决定——一些严重的伦理问题将不可避免地出现。例如,如果算法提出的医疗方法出错,或者自动驾驶汽车为了救司机而撞向一群行人,谁应该对这些决定负责?
最大的问题是,软件的复杂性通常意味着不可能准确地找出一个人工智能系统做它所做的事情的原因。微软 Twitter 机器人 Tay 最近的实验展示了善意的技术如何通过与人类的互动而被扭曲。Tay 被设计成从与 Twitter 用户的互动中学习。在中国,这个实验最早启动的地方,机器人是成功的。但是在美国,机器人变得性别歧视、种族歧视和排外( https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist
)。探索机器人取悦用户的天真“行为”,他们很快利用这一弱点,有意说服机器人否认大屠杀之类的事情。这个实验透视了社会化的重要性和在机器人身上融入伦理的困难。
最近成立了一个新的谷歌研究小组,研究人们如何与人工智能互动,称为“人+人工智能研究倡议”(PAIR)。该小组的目标是让人们更容易与人工智能系统互动,并确保这些系统不会显示偏见或迟钝到没有帮助的地步。PAIR 将汇集人工智能研究人员和工程师;领域专家,如设计师、医生和农民;和日常用户。您可以在 https://www.blog.google/topics/machine-learning/pair-people-ai-research-initiative/
找到更多关于该集团的信息。
DeepMind 创建了 DeepMind 伦理与社会( https://deepmind.com/applied/deepmind-ethics-society/
)来解决人工智能在社会中的影响。它在博客上写道,“技术不是价值中立的,技术专家必须对他们工作的道德和社会影响负责。在人工智能这样一个复杂的领域,说起来容易做起来难,这就是为什么我们致力于深入研究道德和社会问题,包容许多声音,并持续进行批判性反思。”
以下是其他一些值得注意的资源:
- 中国正在使用图像和语音识别技术来代替卡从自动取款机中取钱;
www.scmp.com/news/china/money-wealth/article/1813322/china-develops-cash-machines-facial-recognition-feature-curb
见。 - 在
www.wired.co.uk/article/creating-transparent-ai-algorithms-machine-learning
的这篇文章探讨了算法责任的概念,以及算法是否能够摆脱人类偏见。 - 尼克·博斯特罗姆发表了一篇题为“开放在人工智能发展中的战略意义”(
www.nickbostrom.com/papers/openness.pdf
)的工作论文,对保持人工智能开源的重要性进行了一些思考。 - 高调研究自动驾驶汽车社会困境的作者们发布了道德机器(
http://moralmachine.mit.edu/
)。该平台将众包人类对机器在面临道德困境以及道德后果情景时应如何做出决定的意见。这个实验提出了一些棘手的问题。试试看! - 最近出版的《数学毁灭的武器》(
https://www.amazon.co.uk/Weapons-Math-Destruction-Increases-Inequality/dp/0553418815
)一书指出了机器学习和人工智能另一面的一些非常重要的问题。另见一本对人工智能在社会中的影响提出一些担忧的书:我们的最终发明。 - 关于算法偏见,凯特·克劳福德发起了“现在就开始人工智能”(
https://artificialintelligencenow.com/
)倡议,这是一项跨学科的研究倡议,旨在了解人工智能的社会和经济影响。可能掩盖隐藏偏见的算法已经被常规用于做出重要的金融和法律决策。这些算法中的大多数都是专有的,不适合解释。例如,他们可以决定谁可以参加面试,谁可以获得假释(https://www.technologyreview.com/s/603763/how-to-upgrade-judges-with-machine-learning/
),谁可以获得贷款。 - 随着能够生成非常真实的内容、文本、图像甚至视频(例如,参见
https://www.youtube.com/watch?v=9Yq67CjDqvw%20list=PLTlqgr7kVS33DF-R5E9MsyVon9h_zCYgc%20index=3
的假视频)的更复杂的神经网络的出现,检测假内容变得非常困难。例如,芝加哥大学的研究人员已经训练了一个神经网络来生成令人信服的虚假餐厅评论。一些作者声称,假新闻在 2016 年美国大选中发挥了决定性因素。 - 社交媒体新闻是一把双刃剑。一方面,它成本低,容易获取,并能迅速传播信息。另一方面,它可以传播“假新闻”,或故意提供虚假信息的低质量新闻。假新闻的广泛传播有可能对个人和社会产生极其负面的影响。在最近的一份出版物(
https://arxiv.org/abs/1708.01967
)中,作者回顾了社交媒体上假新闻的检测方法。
人工智能的一个主要含义是,它将使区分真实内容和生成内容(虚假内容)变得更加困难。在最近的一项工作( http://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf
)中,来自华盛顿大学的一个团队开发了一种能够生成一个人的逼真视频的算法。他们应用了一个循环神经网络,这个网络是根据巴拉克·奥巴马的每周讲话片段训练出来的。然后,他们使用这个网络生成具有令人印象深刻的质量的虚假内容的真实视频,这对人类来说是非常难以区分的。与之前的工作不同,他们不需要扫描主题或语音数据库来包含许多人说预定句子的视频。一切都是从现有的镜头中学来的。https://www.youtube.com/watch?v=MVBe6_o4cMI
见。
11.5 人工智能中的隐私和公共政策
随着神经网络在图像处理方面达到人类水平的精确度,在隐私方面将产生严重的影响。例如,当有可能从无处不在的摄像机中识别个人身份,让政府或公司能够跟踪街上的每个人时,我们可能比我们想象的更接近奥威尔式的反乌托邦。
为全球公司提供人力资源指导的 IBA 全球就业研究所(IBA Global Employment Institute)发布了一份关于人工智能对法律、经济和商业问题的影响的报告( https://drive.google.com/drive/folders/0Bxx383wVJ39Pb1p1eGhERTBGVDQ
),如未来劳动力市场、公司结构、工作时间、薪酬、工作环境、就业形式和劳资关系的变化。
2017 年 9 月,一份关于联合王国人工智能的独立报告( https://www.gov.uk/government/publications/growing-the-artificial-intelligence-industry-in-the-uk/recommendations-of-the-review
)发表,为政府提供建议。该报告建议通过建立数据信托来促进数据共享,使用公共资金进行数据创建和共享,并为 ML 创建 300 个新的硕士学位和 200 个博士学位项目(到 2025 年增加到 1600 个博士学位),以及其他举措。它指出,研究和商业化是英国科技行业的巨大机遇。人工智能可以将 2035 年 GVA 的年增长率从 2.5%提高到 3.9%。
微软首席执行官塞特亚·纳德拉概述了他开发人工智能愿景的三个关键原则:增强人类的能力和经验,而不是取代我们;通过解决隐私、透明和安全问题来赢得用户的信任;技术应该包容并尊重所有用户。然而,特斯拉首席执行官埃隆马斯克(Elon Musk)等其他人提出了对人工智能进行监管的必要性的问题,认为人工智能有失控的风险。
迈尔斯·布伦戴奇发表了一份详尽的文件,名为“人工智能政策和战略工作指南”( https://80000hours.org/articles/ai-policy-guide/
)。他表示,“我们迫切需要人工智能政策和战略问题的答案,因为 I)实现解决方案可能需要很长时间,ii)当人工智能不太先进,对该主题的观点/兴趣较少时,一些问题会得到更好的解决,iii)我们不知道特定的人工智能能力何时会得到发展,并且不能排除令人惊讶的突然进步的可能性。”
11.6 初创公司和风险投资
DL 对创业公司和投资者来说代表着一个巨大的机会。在《经济学人》( www.economist.com/news/special-report/21700761-after-many-false-starts-artificial-intelligence-has-taken-will-it-cause-mass
)最近的一篇评论中,内森·贝奈希指出,“根据数据分析公司 Quid 的数据,2015 年在人工智能公司上花费了创纪录的 85 亿美元,几乎是 2010 年的四倍。2015 年人工智能公司的投资轮次比前一年增加了 16%,而整个科技行业的投资轮次下降了 3%。”
人工智能创业公司的资金在 2017 年继续上升趋势,投资创下新高;参见 https://techcrunch.com/2017/07/11/inside-the-q2-2017-global-venture-capital-ecosystem/
(参见图 11-2 )。根据 CrunchBase 的数据,2017 年上半年,风险投资者、企业投资者和种子投资者已向人工智能和机器学习公司投入了约 36 亿美元。这超过了他们在 2016 年全年的投资,标志着可比时期内向该领域投入的最大金额。
图 11-2
Investment in AI from 2014 to mid-2017 (source: CrunchBase https://techcrunch.com/2017/07/15/vcs-determined-to-replace-your-job-keep-ais-funding-surge-rolling-in-q2/
)
根据 CrunchBase 的报告,人工智能初创公司的股权交易——包括将人工智能解决方案应用于医疗保健、广告和金融等垂直领域的公司以及开发通用人工智能技术的公司——增加了近 6 倍,从 2011 年的约 70 起增加到 2015 年的近 400 起(见图 11-3 )。
2014 年,使用人工智能的初创公司获得的资金每年增长 65%,这是由 Avant、销售初创公司 InsideSales.com、医疗诊断公司 Butterfly Network 和深度学习初创公司 Sentient Technologies 筹集的四轮超过 1 亿美元的资金推动的。
图 11-3
Investment in AI-based startups (source: CrunchBase Insights)
Element.ai 获得 1.02 亿美元 A 轮融资;投资者包括微软、英伟达和英特尔投资,它们都有自己的人工智能雄心。该公司希望通过易于部署的解决方案,将人工智能的访问民主化。
谷歌最近推出了 Gradient Ventures ( https://gradient.google/
)来投资人工智能初创公司。Gradient Ventures 将在 2018 年投资 10 至 15 笔交易,通常每笔交易将投入 100 万至 800 万美元。投资组合公司将有机会获得谷歌的高级人工智能培训和工程帮助。
根据 CrunchBase Insights 的数据,医疗保健是深度学习的领先工业应用,自 2012 年以来,通过 270 笔交易筹集了 18 亿美元。根据市场研究公司 Tractica 的数据,仅医疗保健领域的医学图像分析年收入就将从 2016 年的不到 10 万美元增加到 2025 年的 15 亿美元。
11.7 未来
真正的基础技术——如蒸汽机、电力、晶体管或互联网——对世界有着巨大的影响,因为它们创造了新的产业、产品和流程。
深度学习是自互联网以来出现的最重要的基础技术之一。在短短几年内,它已经从学术界走向生产,为全球数十亿人使用的视觉、语音、机器人、医疗保健和各种服务提供动力。根据 ARK Research 的数据,基于深度学习的公司可以在未来 20 年创造超过 17 万亿美元的新市值。
尽管深度学习在 2017 年只有五年的历史,但它在用例、创业公司形成、市场采用和收入方面的增长速度惊人。尽管迄今为止取得了进展,但记忆网络和生成网络等新功能可能会使深度学习更加强大,可能会为人工通用智能提供一座桥梁。在这种情况下,深度学习甚至可以让互联网看起来很小。
人工智能驱动的自动化对社会的影响将是巨大的,因为它可以取代整个行业的活动。例如,仅在美国就有大约 400 万卡车司机面临着他们的工作被自动驾驶卡车取代的风险。
这不仅适用于低技能职业,也适用于高技能职业。全科医生也面临风险,因为机器很快将与病理学家和放射学家竞争。个人助理可能很快会提供比普通家庭医生更准确的诊断。尽管机器还不能进行对话,但目前的技术已经可以接受自然语言的指令,在不久的将来可能会完全对话。
随着大数据、先进的学习算法以及快速 GPU 和 TPU 的结合,深度学习的未来就像你想象的那样光明。在社会上的影响将是巨大的,很多行业将被束缚在基金会上。
以下是数字图书馆未来研究的一些领域。
尽管今天的 DL 在诊断骨折、肺癌或皮肤癌方面可以胜过医生,但是当呈现非常不典型的数据(拐角病例)时,以及当整合不同来源的数据时,这些模型仍然会失败,从而对于看不见的病例给出不准确的结果。此外,CNN 很容易成为敌对例子的目标,这使得它们非常脆弱。需要进一步的研究来弥合这些差距,并整合更多的数据(如基因组学),以便这些算法发挥其潜力。
为了解码生命机制,遗传学研究仍然需要弥合“基因型-表型鸿沟”。基因组和表型数据丰富。不幸的是,有意义地连接这些数据的现有技术导致了缓慢、昂贵和不准确的过程。为了闭合回路,你需要能够确定称为分子表型的中间表型的系统,分子表型作为从基因型到疾病表型的垫脚石。为此,机器学习必不可少。
CNN 在图像识别任务、分割和对象检测方面已经达到了人类水平的精度。然而,尽管取得了所有的进步,但在能效方面,ANN 仍然远远低于人类大脑(大脑仅消耗 20 瓦,而单个 Titan-X GPU 消耗 200 瓦)。尽管谷歌 TPU 处理器致力于深度学习,但更有效的计算硬件肯定是必要的。
注意机制以及信息反馈循环(自上而下和自下而上)也是一个有前途的途径。有一些受人类视觉系统启发的有趣想法,比如 CortexNet ( https://arxiv.org/abs/1706.02735
)和 Feedbacknet ( http://feedbacknet.stanford.edu/
)。这些模型不仅是自下而上的前馈连接,而且还模拟了人类视觉皮层中存在的自上而下的反馈和横向连接。
人工神经网络仍在努力理解人类认为理所当然的东西:常识。我们没有意识到教一台机器发展理解对人类来说非常容易的简单场景的能力有多难,例如重力总是将物体向下推,因此水向下流。
这个问题的解决方案就是更多的数据。为了克服这个困难,最近创建了一个用于对世界进行类似人类视觉理解的大型库( https://medium.com/twentybn/learning-about-the-world-through-video-4db73785ac02
)。它包含两个视频数据集,包含 256,591 个带标签的视频,以教授机器视觉常识。第一个数据集允许机器对物理世界中发生的基本行为进行细粒度的理解。动态手势的第二个数据集实现了人机交互的鲁棒认知模型。
递归网络明显优于前馈模型。更有效的训练方法(包括不可微模型)是研究的重要途径。进化算法是一个有前途的途径。
11.7.1 用较少的数据学习
DL 需要数据密集型算法,需要很多人工标注。如果没有该物种的图像,对猫和狗进行分类的人工智能算法将无法识别稀有的狗物种。
另一个主要挑战是增量数据。在这个例子中,如果你试图识别猫和狗,当你第一次部署时,你可以用不同物种的猫和狗的图像来训练你的 AI。虽然新物种可能与其他物种更相似,但这可能需要完全的重新训练和重新评估。你能让人工神经网络更适应这些小变化吗?
迁移学习
在迁移学习中,学习是在同一算法中从一个任务转移到另一个任务。在具有较大数据集的一个任务(源任务)上训练的算法可以在修改或不修改的情况下被转移,作为试图在(相对)较小数据集上学习不同任务(目标任务)的算法的一部分。
使用图像分类算法的参数作为不同任务(例如对象检测)中的特征提取器是迁移学习的简单应用。相比之下,它也可以用来执行复杂的任务。谷歌开发的比医生更好地对糖尿病视网膜病变进行分类的算法是利用转移学习制成的。
多任务学习
在多任务学习中,多个学习任务同时被解决,同时利用跨领域的共性和差异。有时一起学习两个或更多的任务(也称为多模态学习)可以提高精确度。
在现实应用中看到的多任务学习的一个重要方面是,当训练任何任务变得防弹时,你需要尊重来自许多领域的数据(也称为领域适应)。猫狗用例中的一个例子是一种可以识别不同来源图像的算法(比如 VGA 摄像机和高清摄像机,甚至是红外摄像机)。在这种情况下,可以将域分类的辅助损失(图像来自哪里)添加到任何任务中,然后机器进行学习,使得算法在主任务(将图像分类为猫或狗图像)中变得越来越好,但在辅助任务中故意变得越来越差(这是通过从域分类任务反向传播反向误差梯度来实现的)。其思想是,算法学习主要任务的区别特征,但忘记区分域的特征。
对抗式学习
对抗性学习作为一个领域是从伊恩·古德费勒的研究工作发展而来的。对抗学习最流行的应用是生成对抗网络(GANs ),它可以用来生成高质量的图像;不过,还有其他应用。
使用 GAN 损耗可以使域适应游戏变得更好。这里的辅助损失是 GAN 系统而不是纯域分类,其中鉴别器试图对数据来自哪个域进行分类,而生成器组件试图通过将随机噪声呈现为数据来欺骗它。这比简单的领域适配(也比代码更不稳定)更有效。
少量学习
少镜头学习是一种技术研究,与传统算法相比,它可以使深度学习算法(或任何机器学习算法)用更少的例子进行学习。一次性学习基本上是用一个类别的例子来学习;归纳起来,k-shot 学习就是用每个类别的 k 个例子进行学习。
少数镜头学习作为一个领域,在所有主要的深度学习会议上都有大量论文涌入,现在有特定的数据集来对结果进行基准测试,就像 MNIST 和 CIFAR 用于正常的机器学习一样。一次性学习在某些图像分类任务中有许多应用,例如特征检测和表示。
有多种方法可用于少量学习,包括迁移学习、多任务学习和元学习作为算法的全部或部分。还有其他方法,如使用巧妙的损失函数、使用动态架构或使用优化技巧。零距离学习使用一类算法,声称可以预测算法甚至没有见过的类别的答案;基本上,它们是可以随新型数据扩展的算法。
元学习
元学习最近已经成为深度学习中的一个活跃领域,最常见的是使用超参数和神经网络优化技术,寻找良好的网络架构,使用少量图像识别,以及使用快速强化学习。参考谷歌最近在 https://deepmind.com/blog/population-based-training-neural-networks/
的作品。
这被称为用于决定参数和超参数(例如网络架构)的完全自动化。尽管围绕它们有各种宣传,但 metalearners 仍然是算法;换句话说,它们是利用日益复杂和多样的数据来扩展机器学习的途径。
神经推理
神经推理是模式识别之上的一步,其中算法正在超越简单识别和分类文本或图像的想法。神经推理是在文本分析或视觉分析中解决更一般的问题。
这套新技术出现在脸书的 bAbi 数据集或最近的 CLEVR 数据集发布之后。破译关系而不仅仅是模式的技术具有巨大的潜力,不仅可以解决神经推理,还可以解决包括少量学习问题在内的其他许多难题。
所有提到的技术都有助于以某种方式用较少的数据解决训练问题。虽然元学习会提供只是塑造数据的架构,但迁移学习是从其他领域获取知识,以弥补数据的减少。少杆学习致力于作为一门科学学科的问题。对抗性学习可以帮助增强数据集。
领域适应(一种多任务学习)、对抗学习和(有时)元学习架构有助于解决数据多样性带来的问题。元学习和少量学习有助于解决增量数据的问题。
神经推理算法在作为元学习者或少量学习者整合时,具有解决现实世界问题的巨大潜力。
第一部分:背景和基本原理
第二部分:深度学习的核心应用
第三部分:深度学习的商业应用
第四部分:机遇与前景
更多推荐
所有评论(0)