NVIDIA黄仁勋:GPU加速运算的模式将会持续扩大

 在此次GTC Taiwan中,NVIDIA执行长黄仁勋期未来10年内,每年对于运算需求的规模将成长100倍,同时预期在摩尔定律逐渐衰减之下,全球前50大超级电脑的GPU运算量将在未来5年内成长15倍率,同时以GPU加速运算的方式将成为延展摩尔定律的主要模式。

 
GPU是图形处理器,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。用途是将计算机系统所需要的显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示,是连接显示器和个人电脑主板的重要元件,也是"人机对话"的重要设备之一。显卡作为电脑主机里的一个重要组成部分,承担输出显示图形的任务,对于从事专业图形设计的人来说显卡非常重要。
NVIDIA黄仁勋:GPU加速运算的模式将会持续扩大
黄仁勋在GTC Taiwan再次强调过去NVIDIA创造CUDA运算模式所带动加速效益,同时说明未来借由GPU加速运算的模式将会持续扩大,预期在2028年全球运算需求将等同1000万组Volta架构GPU所推动效能,若以传统通过多组CPU堆叠构成超级电脑等级运算能力,将会占据大规模空间及高额电力花费,若以GPU替换的话,则可节省更多空间与电力损耗,同时带来更高加速效果。
  
就目前超级电脑底经成为现代科学发展重要工具,分别在分子建构、量子化学、量子力学、天气预报、气象研究、能源探索、物理模拟、数据分析与人工智能技术发展扮演重要角色,并且提供百万亿次或百亿等级运算效能。而就OpenAI统计显示,未来5年内的人工智能运算模型将成长30万倍,相比摩尔定律预期成长速度快3万倍,借由GPU加速能力将可让数据、演算程式复杂度大幅提升,借此解决过往人力无法解决运算需求。
NVIDIA黄仁勋:GPU加速运算的模式将会持续扩大
去年宣布推出整合Tensor Core设计,并且整合32GB HBM2内存的Volta架构GPU,借此对应125 Tensor TFLOPS运算效能,分别对应7.5 FP64 TFLOPS或15 FP32 TFLOPS预算效能,相比过往采用GPU加速运算模式可提升10倍效率,同时进一步让占用空间与电力损耗大幅降低。
  
而为了突破硬体架构限制,NVIDIA在今年的GTC 2018更进一步宣布推出NVSwitch,让16组Volta GPU能共用高达512GB HBM2内存 (32GB x 16),总计可对应81920组CUDA核心、2000 Tensor Core TFLOPS运算效能,构成全球最高效能的GPU,并且不受传统CPU架构限制GPU存取内存容量影响。借由NVSwitch的设计,NVIDIA更宣布推出全球最大 (并且可游玩游戏)的DGX-2 GPU,对应借由高达2PFLOPS运算效能,并且特殊多孔纤维设计让运作功率高达10000W的机盒维持低温运作,相比半年前正式推出的DGX-1运算效能提升10倍。
  
相比过往必须借由300组双核心CPU构成、必须消耗180000W功率能耗运作的服务器,通过单组DGX-2 GPU即可对应相同运算效能,但整替价格仅需1/8与1/18功率能耗,同时相比过往Alex 练Alex Krizhevsky通过两张NVIDIA GTX 580 GPU,花费6天时间完成训练AlexNet,借由DGX-2 GPU仅需18分钟即可完成。同时DGX-2 GPU也分别打破每秒分析1075个影像,成为最快单晶片运算速度,以及每秒可在每个节点处理15500个影像,并且可在14分钟内完成扩充,推论延迟时间仅在1.1毫秒,每秒更可推论演算6250个影像。
  
通过DGX-2的运算能力与NVSwitch串接技术,NVIDIA也宣布推出以DGX-2建构的服务器平台设计HGX-2,并且与广达、云达、富士康、英业达、纬创、纬颖、华硕、技嘉、华擎、泰安、宏碁等台湾在地厂商合作,同时强调全球约有90%服务器源自台湾,而NVIDIA也与更多台湾在地厂商持续合作。
  
借由GPU运算能力,配合与Adobe等软体厂商合作的影像处理技术,将可实现即时修改影像中不必要物件,或是重建影像中缺乏内容,甚至能进一步呈现“美颜”效果。同时通过与Google提出的kubernetes容器集群管理系统合作,将可让更多人工智能系统能因应不同运算需求动态调整运算效能,借此让GPU架速运算效能有更弹性配置效益,将与阿里巴巴、百度、eBay、HIKVISION、IBM、小米等厂商合作。
  
在与台湾合作部分,NVIDIA表示目前富士康将借由人工智能技术检测制作生产效率,中国医药大学附设医院通过人工智能技术协助医师分析预测癌症肿瘤转移情况,台湾大学则通过人工智能区分鼻咽癌危及器官,而台湾人工智能实验室也通过人工智能技术协助台南市政府监测桥梁结构预防台风损害,桃园市政府则计划在2020年前让30%固定行驶路线的公车能配置Level 3自动驾驶功能。
  
如同先前在GTC 2018期间以“PLASTER”作为主题演讲结尾,黄仁勋也强调分别借由可编程 (Programmability)、低延迟 (Latency)、高精准度 (Accuracy)、规模化 (Size)、数据吞吐量 (Throughput)、能耗效率 (Energy Efficiency),进而推动学习训练效率 (Rate of Learning),让人工智能能以更快速度成长。