快捷搜索:  MTU2MTUwNTc4Mg`  as  1111

当AI遇上FPGA会产生怎样的反应

机械在ImageNet中图像识别差错率达到了3.5%,远远越过了人类匀称的5.1%。在越来越多的领域,AI已经拥有了逾越人类的能力,比如象棋、围棋,比如图片、语音识别。AI谋略平台和相关算法的成长是人工智能大年夜跃进的根基,在线下模型练习中Xeon-Phi、GPU等发挥着伟大年夜的感化,而在线上的推理义务中,浪潮FPGA深度进修加速办理规划则能够实现7倍以上的能效比提升。

卷积收集之父、Facebook人工智能实验室主任Yann LeCun在一次采访中表示,“大年夜规模的在卷积神经收集练习上可能是对照慢,然则在一个实际的利用中,没人关心练习到底要花多长光阴,人们只关心运行必要多久。”

也便是说,当模型一旦被练习完成,线上推理的效率才抉择用户体验。比如,有2个同样AI模型的练习,一家公司用了1天练习完成,但线上推理的效率只有每秒100个义务;另一家公司用了7天练习完成,但线上推理效率可以达到每秒1000个。那么对付终极用户而言,第二家公司的利用无疑更快、用户体验更佳。那么若何才能提升人工智能利用的线上推理义务的效率?

今朝,GPU已经在深度进修练习模型领域创始性地创建了包孕CNN、DNN、RNN、LSTM以及强化进修收集等算法在内的利用加速平台和完备的生态系统。深度进修包孕两个谋略环节,即线下练习和线上推理环节。GPU在深度进修算法模型练习上异常高效,但在推理时,一次性只能对付一个输入项进行处置惩罚,并行谋略的上风不能发挥出来。

相对照而言,运行深度进修算法实现同样的机能,GPU所需功耗弘远年夜于FPGA,平日环境下,GPU只能达到FPGA能效比的一半或更低。今朝来看,深度进修算法还未完全成熟,算法还在迭代衍化历程中,若深度进修算法发生大年夜的变更,GPU无法像FPGA一样可以机动的设置设置设备摆设摆设硬件布局,快速切入市场。

是以,FPGA和GPU未来在超级数据中间将成主流利用。尤其是在深度进修方面, GPU强在练习,而FPGA强在揣摸。原百度IDL常务副院长、现地平线机械人开创人&CEO余凯博士在北大年夜一次公开课中走漏:“百度广告系统上线跟语音系统上线都必要实时谋略,并且它的流量分外大年夜,分外是广告,这种环境下 CPU 跟 GPU 着实都扛不住,以是我们当时用 FPGA 去做专门的硬件加速。”

因为FPGA具有可编程专用性,高机能及低功耗的特征,浪潮推出基于FPGA的深度进修加速办理规划,盼望经由过程更高设置设置设备摆设摆设的硬件板卡设计和内置更高效已编译算法,来加速FPGA在人工智能领域的利用。

这一规划基于浪潮研发的业界最高密度的FPGA卡——F10A,单芯片峰值运算能力为1.5TFlops,而功耗仅35W,每瓦特点42GFlops。同时,F10A设计半高半长PCI-E插卡,具有机动的板卡内存设置设置设备摆设摆设,最大年夜支持32G双通道内存,能够寄存更多的并行义务数据。此外,F10A支持2个10Gb光口,可以实现数据直接从收集到板卡处置惩罚,无需颠末CPU,减低了传输延时。

而在算法上,浪潮FPGA深度进修加速办理规划针对CNN卷积神经收集的相关算法进行优化和固化。客户在采纳此办理规划后,只必要将今朝深度进修的算法和模型编译成与浪潮深度进修加速办理规划的设置设置设备摆设摆设脚本,即可进行线上利用,省去至少3个月到半年的开拓周期和相关资源。并且在算法运行效率上,浪潮FPGA加速规划比拟CPU、GPU都有着很大年夜上风。

今朝,浪潮FPGA规划可加速ResNet等神经收集,能够利用于图片分类、工具检测和人脸识别等利用处景。以经由过程构建ResNet残差收集的图片识别分类义务为例,对通用图像识别根基数据集CIFAR-10进行测试,经由过程浪潮FPGA办理规划进行处置惩罚,能够实现每秒742张的处置惩罚速率,Top-5识别准确率达到99.7%。而在同样的模型下,应用NVidia M4仅能达到172张每秒,并且M4的功耗为50-75W,浪潮FPGA的功耗仅为30-45W。是以,从能效最近看,浪潮FPGA加速办理规划在图片识别分类利用上,比拟GPU能效比能提升7倍以上!同样,与通用CPU比较,在处置惩罚这种高并行、小谋略量的义务时,FPGA的上风将更显着。

除了在AI的线上推理偏向,FPGA在其他很多方面也能发挥代价。在面向谋略密集型义务,比如矩阵运算、图像处置惩罚、机械进修、压缩、非对称加密、搜索的排序等的时刻,拥有流水线并行和数据并行的FPGA效率会高很多。今朝,浪潮已经推出面向WebP图片转码、Gzip数据压缩和深度进修等偏向的完备办理规划,能够实现10倍以上的图片压缩吞吐能力,8-10倍的数据压缩效率和10倍以上的图片分类识别能效比。

您可能还会对下面的文章感兴趣: