介绍GPU与FPGA的几个方面和看法 |电子通-应用新知，新电子的助推者电子通

从几个方面来介绍一下GPU和FPGA。

从峰值性能来说，GPU（10Tflops)远远高于FPGA(<1TFlops)。GPU上面成千上万个core同时跑在GHz的频率上还是非常壮观的，最新的GPU峰值性能可达10TFlops以上。GPU的架构经过仔细设计（例如使用深度流水线，reTIming等技巧），在电路实现上是基于标准单元库而在criTIcal path上可以用手工定制电路，甚至在必要的情形下可以让半导体fab依据设计需求微调工艺制程，因此可以让许多core同时跑在非常高的频率。相对而言，FPGA首先设计资源受到很大的限制，例如GPU如果想多加几个core只要增加芯片面积就行，但FPGA一旦你型号选定了逻辑资源上限就确定了（浮点运算在FPGA里会占用很多资源）。而且，FPGA里面的逻辑单元是基于SRAM-查找表，其性能会比GPU里面的标准逻辑单元差好多。最后，FPGA的布线资源也受限制（有些线必须要绕很远），不像GPU这样走ASIC flow可以随意布线，这也会限制性能。

除了芯片性能外，GPU相对于FPGA还有一个优势就是内存接口。GPU的内存接口（传统的GDDR，最近更是用上了HBM和HBM2）的带宽远好于FPGA的传统DDR接口，而众所周知服务器端机器学习算法需要频繁访问内存。

但是从灵活性来说，FPGA远好于GPU。FPGA可以根据特定的应用去编程硬件（例如如果应用里面的加法运算非常多就可以把大量的逻辑资源去实现加法器），但是GPU一旦设计完那就没法改动了，没法根据应用去调整硬件资源。目前机器学习大多数适合使用SIMD架构（即只需一条指令可以平行处理大量数据），因此用GPU很适合。但是有些应用是MISD（即单一数据需要用许多条指令平行处理，微软在2014年ISCA paper里面就举了一个MISD用于并行提取feature的例子），这种情况下用FPGA做一个MISD的架构就会比GPU有优势。不过FPGA的编程对于程序员来说并不容易，所以为了能让机器学习程序员能方便地使用FPGA往往还需要在FPGA公司提供的编译器基础上进行二次开发，这些都是只有大公司才能做。

FPGA实现的机器学习加速器在架构上可以根据特定应用优化所以比GPU有优势，但是GPU的运行速度（>1GHz)相比FPGA有优势(~200MHz)。

所以，对于平均性能，看的就是FPGA加速器架构上的优势是否能弥补运行速度上的劣势。如果FPGA上的架构优化可以带来相比GPU架构两到三个数量级的优势，那么FPGA在平均性能上会好于GPU。例如，百度在HotChips上发布的paper显示，GPU的平均性能相比FPGA在矩阵运算等标准batch data SIMD bench上远好于FPGA；但是在处理服务器端的少量多次处理请求（即频繁请求但每次请求的数据量和计算量都不大）的场合下，平均性能会比GPU更好。

功耗方面，虽然GPU的功耗（200W）远大于FPGA的功耗（10W），但是如果要比较功耗应该比较在执行效率相同时需要的功耗。如果FPGA的架构优化能做到很好以致于一块FPGA的平均性能能接近一块GPU，那么FPGA方案的总功耗远小于GPU，散热问题可以大大减轻。反之，如果需要二十块FPGA才能实现一块GPU的平均性能，那么FPGA在功耗方面并没有优势。

能效比的比较也是类似，能效指的是完成程序执行消耗的能量，而能量消耗等于功耗乘以程序执行的时间。虽然GPU的功耗远大于FPGA的功耗，但是如果FPGA执行相同程序需要的时间比GPU长几十倍，那FPGA在能效比上就没有优势了；反之如果FPGA上实现的硬件架构优化得很适合特定的机器学习应用，执行算法所需的时间仅仅是GPU的几倍或甚至于接近GPU，那么FPGA的能效比就会比GPU强。

技术专区

你知道关于嵌入式闪存还有哪些错误观念吗？
网络棋牌游戏服务器详细架构说明
语音通信中时延产生测量及减小方法
介绍GPU与FPGA的几个方面和看法
Android OpenGL ES开发：投影和相机视图创建和应用

技术专区

微信