牵手大企，关于图形计算、HPC与AI，NVIDIA言有尽而意无穷！

Original 晶少 CSDN云计算 2020-02-12

戳蓝字“CSDN云计算”关注我们哦！

作者 | 晶少

出品 | CSDN云计算（ID：CSDNcloud）

在黄仁勋看来，随着摩尔定律消亡，GPU加速才是撬动未来高性能计算发展的有力杠杆。有数据显示，目前NVIDIA已经销售了超过15亿块GPU，而这些GPU由于采用了同一架构，均能兼容CUDA。

不仅仅如此，身着经典皮衣的黄教主更认为硬件的“登峰造极”不仅仅局限于芯片，只有软件得到相应性能的完整优化，未来的多GPU才能彰显最出色的处理能力。基于此，NVIDIA在CUDA平台上配置了相当丰富的软件库，并且选择在去年一整年推出了超过500个相应的SDK以及库来不断改进NVIDIA的软件栈。有数据显示，通过这些专门的SKU，NVIDIA的产品在过去三年的深度学习性能提升了4倍，而深度学习推理性能也相应提升了2倍。列举如此多样的软件升级，要说目前实在硬核的NVIDIA软件创新，当属最新一代推理软件开发套件NVIDIA TensorRT 7编译器的推出。

晶少了解到，TensorRT作为一种计算图优化编译器能够优化推理实现实时AI会话，将TensorFlow的输出结果进行优化，简单理解位可以高效寻找计算途中可以融合的节点，从而减少计算和内容的访问来进行CUDA码的优化，值得提及的是可以运行在任何GPU上。

“去年我们在中国发布了TensorRT 5，可以处理CNN，而且是在图形的同一层将边缘与节点融合；此外还支持自动检测以及自动低精度推理，将FP32模型转换成FP16或INT8模型，准确率保障的同时降低能耗。”对比TensorRT 5，如今TensorRT 7能够支持1000多种不同计算变换和变化，借助于该软件，全球各地的开发者都可以实现会话式AI应用，大幅减少推理延迟。而此前不容忽视的一点，巨大的推理延迟一直都是实现真正交互式互动的很大阻碍。

具体来说，TensorRT 7内置新型深度学习编译器，能够自动优化和加速递归神经网络与基于转换器的神经网络，而这些日益复杂的神经网络是AI语音应用所必需的。与在CPU上运行时相比，会话式AI组件速度提高了10倍以上，从而将延迟降低到实时交互所需的300毫秒阈值以下。除了支持CNN，TensorRT 7也支持RNN、Transformer等自动实现。对于所有RNN定制的内核甚至可以进行多个时间场景融合，在整个处理的工作流中，在不同的时间点来进行所需要的内存，以及处理工作量。

除了技术上的“高屋建瓴”之外，TensorRT 7.0还能轻松“搞定”会话式AI。黄仁勋对此表示：“我们已经进入了一个机器可以实时理解人类语言的AI新时代。TensorRT 7使这成为可能，为世界各地的开发者提供工具，使他们能够构建和部署更快、更智能的会话式AI服务，从而实现更自然的AI人机交互。”

关于此NVIDIA 负责TensorRT产品市场的Siddarth Sharma总结道：“实际上，NVIDIA着手会话式AI的技术加速工作已经有好几个月的时间了。最初的版本只涵盖了会话式AI中的一部分，也就是语言理解部分。通常这个攻克的过程需要三个部分：将识别的语音转化成文字，理解的基础上再转化为语音播出。随着我们不断发布新版本，TensorRT 7基本上可以完成整个三流程的计算，即从语音识别到语义理解再到语音输出。”

据晶少了解，其实会话式AI是技术难度很高的领域，想要完全攻克并为之所用就需做到要在300毫秒内将三个部分智能并完整达成，在这个过程中有很多的复杂模型被计算，所以Tensor RT也在不断完善以保证覆盖整个流程。

据悉，目前全球很多体量较大并极具创新的企业都已经使用了NVIDIA的会话式AI加速功能。在首批使用NVIDIA会话式AI加速能力的企业中，我们发现了阿里巴巴、百度、滴滴出行、美团、快手、平安、搜狗、腾讯和字节跳动等企业。搜狗首席技术官杨洪涛表示：“搜狗每天通过输入法、AI硬件、搜索等产品为数亿用户提供语音、图像、翻译、对话以及问答等优质的AI服务，我们使用NVIDIA TensorRT推理平台实现线上实时快速的服务响应，领先的AI能力显著提升了我们的用户体验。”

此外在深度推荐系统应用方面，百度AIBox推荐系统以及阿里巴巴推荐系统均借助NVIDIA 的AI平台实现计算加速。值得一提，在今年“双11”期间，英伟达GPU为阿里巴巴推荐模型提供加速，实现了每秒处理780个查询，远高于CPU的3个。“在阿里巴巴的服务器上，一个‘双十一’活动，每秒需要处理数十亿次的推荐，使用GPU驱动的推荐系统，吞吐量（通量）可以比CPU提升上百倍。”同样在云方向，滴滴还将基于NVIDIA 技术建设人工智能基础架构，并适时推出不同型态的vGP云U服务器，其中包括计算型、渲染型和游戏型等。

“其实计算是一个非常重要的方式，而且可见情况下增长势头非常迅猛。目前我们的计算平台与全球很多云服务提供商都进行了合作，例如AWS、Azure、谷歌云等，其中还包括国内的百度、滴滴、阿里云平台等，所以我们在开发下一代产品时在开发者领域以及企业级方向，都很重视自身产品的技术质量。”NVIDIA 加速计算产品管理总监Paresh Kharya说。

可以肯定的一点，如今通过TensorRT的新型深度学习编译器，全球各地的开发者能够将这些网络（例如定制的自动语音识别网络以及用于文本-语音转换的WaveRNN和Tacotron 2）实现自动化，并实现最佳的性能和最低的延迟。很重要的一点，TensorRT 7可以快速优化、验证并部署经过训练的神经网络，还为超大型数据中心、嵌入式或汽车GPU平台提供推理能力，目前TensorRT 7.0现在已经可被使用。

就在一月之前的丹佛2019全球超级计算大会(SC19)上，NVIDIA刚刚发布了一款参考设计平台，使企业能够快速构建GPU加速的ARM服务器。在本次GTC大会上，相关问题再次被提及，黄仁勋提出：“此举是为了让GPU能够像支持x86平台一样支持ARM平台。”

众所周知，ARM是世界上最为普及的CPU，世界上约95%的定制SOC都是基于ARM，也被称之为最可编配置的CPU。据了解在全球范围内，共有1500亿台设备基于ARM架构，之所以如此成功，归根结底是开放性使然，例如各种各样的功能，包括互联、内存、CPU内核、计算能力，包括多元化在内的支持，都使ARM成为现如今世界上非常重要的架构之一，给予用户更多选择。对此晶少观察到，其实很多行业企业都在打造基于ARM的服务，原因或许在于传统HPC高性能计算确实需要高效能的产出，另一方面确实整个世界都在拥抱云，而ARM确实与超大规模应用堪为“天生一对”。

“我们通过将CUDA平台和ARM架构进行兼容，在整个加速计算领域，无论是AI、高性能计算等，都可以给到客户更多选择。之所以有这么大的性能提升，不仅是在架构上进行了设计，更重要的是我们通过软件的方式使得性能进一步提升。有数据显示，仅仅通过软件就使得AI计算性能在两年之间提升了4倍，所以软件对加速计算的性能提升非常重要，未来我们会继续在医疗领域Clara平台，应用在自动驾驶领域的Drive以及机器人方向的Isaac等各个平台上对软件进行完善以提升性能。”

具体来说，通过PCI Express为ARM提供与X86平台同等的支持，轻松针对ARM进行CUDA编译；而且CUDA本身拥有一个诸多开发人员构成的庞大生态系统，当支持ARM时候，这些开发人员也开始支持ARM。不容忽视的一点，基于对ARM平台的支持，超级计算中心、超大型云运营商和企业能够将其加速计算平台的优势与最新的ARM服务器平台相结合，高效满足高性能计算(HPC)社区对于类型更加多样化的CPU架构日益增长的需求。

另外在今年的GTC的大会上，NVIDIA按照惯例爆出了未来计算机图形的技术，即实时光线追踪NVIDIA GeForce RTX的最新进展。

RTX可以用更为自然的方式模拟光线、反射等，让现代计算机图形技术变得更加有魅力，而NVIDIA在最新的图灵架构中正是搭载了这项技术，实现对于现实光照的完美还原并带来逼真的游戏环境。会上，NVIDIA演示了拥有3亿多玩家的《我的世界》的光追版本，开启RTX之后《我的世界》营造了一个真实的游戏世界；还官宣包括《边境》、《铃兰计划》、《暗影火炬》、Project X、《无限法则》以及《轩辕剑柒》等六款游戏将会支持光线追踪。

“NVIDIA处在图形、HPC和AI的交汇领域。”这或许是对本次GTC黑科技的最简洁直观的诠释。

福利

扫描添加小编微信，备注“姓名+公司职位”，加入【云计算学习交流群】，和志同道合的朋友们共同打卡学习！

推荐阅读：

真香，朕在看了！

张庆方律师拟被吊销律师证的处罚告知书

中国人民大学最新报告：相信遥遥领先的人，多数处在社会底层

从来就不缺傻子！

中国人的命也是命！

2024年心理咨询师报名通道开启，可考心理证书！无需辞职。最后3天！