找回密码
 立即注册

QQ登录

只需一步,快速开始

谷歌AI部门宣布发现新技术以加速AI神经网络训练

|原发: 前瞻网

放大 缩小

谷歌的张量处理器(TPU)和英特尔的Nervana神经网络处理器等人工智能加速器硬件有望加速人工智能模型训练,但由于芯片的架构方式,训练管道的早期阶段(如数据预处理)并没有从提升中受益。


这就是为什么近日Google Brain (谷歌的人工智能研究部门)的科学家在一篇论文中提出了一种名为"数据响应"(data  echoing)的技术。


TPU、Nervana与神经网络


TPU是一种高速定制机器学习芯片,最初是在2016年5月由该公司进行的 I/O  开发者大会上推出的。搜索、街景、照片、翻译,这些Google提供的服务,都使用了Google的TPU(张量处理器)来加速背后的神经网络计算。


据称,TPU与同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。


TPU设计封装了神经网络计算的本质,可以针对各种神经网络模型进行编程。


英特尔则于今年1月的CES  2019展会上发布了Nervana系列神经网络处理器的最新型号NNP-I,这种芯片适用于企业级高负载推理任务的加速,计划于今年投入生产。


英特尔推出的Nervana神经网络处理器据称可以在训练任务上达到其竞争对手GPU的十倍速度。


Facebook是英特尔的合作伙伴之一,而7月3日,英特尔还宣布将与百度合作开发英特尔Nervana神经网络训练处理器(NNP-T)。这一合作将全新定制化加速器,以实现极速训练深度学习模型的目的。


数据响应技术


研究人员表示,这种目前性能最好的数据响应算法可以使用较少的上游处理来匹配基线的预测性能,在某些情况下,可以抵消4倍慢的输入管道。


"训练一个神经网络需要的不仅仅是在加速器上运行良好的操作,所以我们不能仅仅依靠加速器的改进来在所有情况下保持加速。"合著者表示。


一个神经网络训练计划可能需要读取和解压培训数据,对其进行清洗、批处理,甚至对其进行转换或扩充。


这些步骤可以使用到多个系统组件,包括cpu、磁盘、网络带宽和内存带宽。


在典型的训练环节中,人工智能系统首先读取和解码输入数据,然后对数据进行重组,应用一组转换对其进行扩充,然后将示例收集到批次中,并迭代更新参数以减少错误。


研究人员的数据响应技术是在管道中插入一个阶段,该阶段在参数更新之前重复前一个阶段的输出数据,理论上可以回收空闲的计算能力。


在实验中,团队使用在开源数据集上训练的AI模型,评估了两个语言建模任务、两个图像分类任务和一个目标检测任务上的数据响应。


他们将训练时间作为达到目标指标所需的"新鲜"训练示例的数量来衡量,并研究了数据响应是否能够减少所需的示例数量。


合著者报告说,除了一种情况外,所有情况下,与基线相比,数据响应所需的新例子都更少,而且训练也更少。


此外,他们注意到前面的响应被插入到训练环节中——即,在数据增强之前,与成批处理后相比,需要的新示例更少,并且在较大的批处理大小下,响应的性能偶尔更好。


该团队写道:"当训练管道在上游某个阶段遇到瓶颈时,所有的数据响应变量都至少达到了与基线相同的性能……(这)是一种提高硬件利用率的简单策略。"


"数据响应是优化训练管道或增加额外工人来执行上游数据处理的有效替代方案,而这可能并不总是可行或可取的。"


此前,谷歌的神经网络还有过很多别的应用。麻省理工学院和谷歌人工智能实验室的研究人员提出了一种自动破译失传文字的神经网络算法。这一算法首次实现了古希腊迈锡尼文明时期"线形文字B"的自动翻译,准确地把67.3%  的线形文字B同源词翻译成了希腊语。


谷歌还训练过两个神经网络,意图在嘈杂的环境里分离出目标人声。


(编辑:于思洋


版权所有

本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。文中图片除非有标注外,均来源于网络。如若发现有侵犯您知识产权的作品,请与我们取得联系,我们会及时修改或删除。邮箱:qygcbs@163.com


返回顶部