现代数据中心成功的要诀是:大规模提供尖端加速计算平台,从而使世界各地的开发者与解决方案提供商都能被覆盖到。在过去十年里,云计算已运用并行计算来提高性能,这种方法需要将求解过程分解成多个并行任务,以充分利用所有计算单元。以GPU 为代表的并行计算加速器,其中含有多达 2,000 个计算单元。我们不妨将它想象成一个塞满小黄人的小型棒球场,每个小黄人代表 100 万个逻辑门。一旦出现某个问题不支持所有小黄人同时并行工作完成求解,诸如 GPU 这样的并行计算加速器就会面临严重的性能局限。的确,一些类型的问题非常适合这种并行计算“小黄人”模式,但很多问题却并不适合。
例如压缩、视频编码、基因组分析和股票交易等任务,就不适合这种并行模式。这些任务更适合逻辑门方法与可编程芯片,即现场可编程门阵列( FPGA )。正因如此,Nimbix 近期率先在 Nimbix 云上面向开发者推出基于 FPGA 的 Alveo U50 加速器具有重要意义。
逻辑门是计算的基本单元。从“Hello World”到“Half-Life”,每个程序在执行时都将转化为大量逻辑门的迅速开关动作。程序的运行速度几乎完全取决于体现在代码中的程序员意图与最终执行该意图所需的逻辑门数量之间的抽象层数量。每增加一层抽象,就需要消耗更多数量的逻辑门。
例如选取一个高级语言实现的视频编码程序,将其直接转换成逻辑门,然后将逻辑门定义加载到 FPGA 中。结果证明,与常规的 CPU 方法相比,使用逻辑门对程序进行处理,不仅将视频编码速度提高了 20 倍,而且也将功耗降低了 10 倍。此外,还可以将编码器的 30 多个并行实例加载到 FPGA 中。也就是说,通常CPU 编码单个流的时间里就可以生成 600 个编码流。这就是将基于门的 FPGA 方法用于解决实际应用的强大之处。此外,与 GPU 等功能固定的加速器相比,FPGA 还具有更高的灵活应变能力。随着工作负载算法和需求的发展演进,FPGA 提供了可重配置硬件,其适配速度远远超越了 GPU 的产品周期。想象一下,现在已经有了 100 多种像这样可以使用FPGA 加速技术进行优化的解决方案!
FPGA 一度被认为是适用于嵌入式计算环境(汽车、工业物联网及无人机和摄像头等高端消费产品)的专用芯片,但随着基于 FPGA 的加速在众多新兴新型工作负载中应用的日臻成熟,FPGA 正日渐在数据中心领域被广泛采用。为了应对不断增长的需求,赛灵思推出了专门针对数据中心的 Alveo加速器卡产品系列。
赛灵思与 Nimbix 展开合作,致力于为广大用户提供基于云的 FPGA 加速平台。从计算流体动力学到视频转码,开发者能够立即访问和使用这款平台,获得100 多种应用加速解决方案。新硬件的部署工作往往难度较大,但通过 Nimbix 动态部署基于云的 FPGA 加速硬件,可以一键点击轻松实现。Nimbix 使用了赛灵思全系列 Alveo 产品线,包括U50、U200、U250、U280 加速器卡。