英伟达黄仁勋发布全球最大GPU，超300斤，汽车后备箱大小 | GTC2018

发布人：校企合作管理员来源：本站发布日期：2018/12/21 【浏览量：】

我们在NVIDIA DGX系统上进行训练，然后我们进行验证；

最终创建网络，我们现在在车上有10个网络。每个网络有10个DGX分配

这10个网络涵盖感知、自由空间距离感知、天气，激光雷达感知、基于相机的映射、相机定位到高清地图、激光雷达定位到高清地图、路径感知和场景感知。

“我们正在试图创建一个自动驾驶汽车流量和基础设施，这样整个行业就可以利用这一点，并创造出自动驾驶汽车的未来。”

不过，据海外媒体TechCrunch报道，在Uber事故后，英伟达已暂停其自动驾驶测试。不知是否受此影响，英伟达股价今天持续走低，累计下跌超9%。

这一次的GTC大会可能让不少矿工略微失望，英伟达并没有如传言所说发布一款“挖矿”专用芯片，但这并不影响这场持续三小时的英伟达2018GTC大会的精彩。

当地时间3月28日上午9点，英伟达创始人兼首席执行官黄仁勋在San Jose McEnery 会议中心，开启了第九届年度 GPU 技术大会（GTC）。

按照惯例，黄教主依然一身皮衣登场，激情满满完成了本次大会的keynote演讲，并发布了一系列英伟达的新产品。

先来一睹为快本次发布会的精华内容：

发布全球首个基于Volta架构的GPU——GV100，并与医疗影像行业结合；
DGX2——世界最大GPU诞生！重达350磅，有汽车后备箱那么大；
TensorRT 4发布，为超大规模数据中心提速100倍；
发布针对自动驾驶场景的解决方案。

“今天，我们将讨论令人惊讶的图像，令人惊讶的科学，令人惊讶的人工智能和令人惊讶的机器人。”刚一上场，黄教主就带着他一贯的激情脱口而出了四个“令人惊讶的”。

黄教主首先回忆了第一部电影的诞生，以及电影工业的发展。而这一切离不开GPU的支持。

“15年来计算机图形学最重要的进步”

今天发布的第一款产品是Quadro GV100——世界上第一款基于Volta架构的GPU工作站。它的创新之处是带有一个名为NVLink 2 的全新连接点，这一连接将编程和内存模型从一个GPU扩展到第二个，从而链接起来，使它们像一整个GPU那样工作。这两个GPU共有10,000个CUDA内核，236个teraflops的Tensor Cores和64GB内存。

“现在每年产生10亿张图片，而且可以再增加10倍，因为Quadro可以把实时渲染降低到现有成本的1/5，现有空间的1/7，和现有功耗的1/17”，黄教主接着说道。

这一产品的主要使用场景是计算机图像，例如电影和游戏产业。黄仁勋接下来展示了目前已经有的三十多个主要合作伙伴，涉及游戏、设计、电影、建筑等行业。他非常激动地称，这项技术是15年来计算机图形学最重要的进步。

与医疗影像结合，推出虚拟化数据中心

这一芯片产品的另一个可广泛应用的领域是医疗行业。

黄教主展示了一张15年前的超声波图像并将其与一张现在的超声波图像比较。可以明显看到前者模糊的灰色像素，而后者甚至可以看到胎儿的准确肤色。

正是因为基于GPU的计算技术发展，现在可以比以前更好地重建图像，通过渲染来释放更多洞察力并迅速可视化图像。为了确保这一技术更好更快地应用到医疗行业的硬件设备上，英伟达还为此推出了Clara项目——远程、多模式、多用户的虚拟化数据中心，可以为每个系统进行虚拟更新。

黄教主说，英伟达在现代医学成像方面所做的工作是他最感到自豪的事情之一。

这个庞然大物包含20亿个晶体管，其中每个GPU都通过光纤交换机通信，所以它的工作原理更类似一个交换机而不是一个网络。

这款GPU重达350磅（超过300斤），有汽车后备箱那么大，“没有人能把它举起来”，黄教主调侃道。

DGX-2的处理能力是去年9月发布的DGX-1的10倍以上。

这款全球最强大的电脑售价为39.9万美元（约250万人民币）。

黄教主称，它可以取代300台消耗为180千瓦的双CPU服务器，而这三百台计算机总价值为3百万美元，使用DGX-2可以将成本降为之前的八分之一，并将占地空间降到之前的六十分之一。

5年前，在2个GTX 580上训练Alexnet神经网络需要花费6天，但现在使用DGX-2只需要训练18分钟。时间单位从“天”降低到“分钟”，产生巨大对比。

黄教主接着说道：“在数据和计算量的‘双重指数级’增长的背景下，出于为越来越复杂的系统和软件提供支持的目的，我们发布了NVIDIA GPU Cloud（NGC）。”

不论使用什么云，都可以在NGC上使用相同的堆栈，现在的NGC已经有了两万注册用户，而这仅仅是去年发布后的一小部分。NGC已经通过了AWS、Google Cloud、Oracle Cloud和阿里云的认证。它是一个能在任何云上运行的唯一体系结构。

TensorRT 4发布，超大规模数据中心提速100倍

m; color: rgb(51, 51, 51); font-family: -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif; font-size: 17px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: 0.544px; orphans: 2; text-align: justify; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">

黄教主用一张幻灯片展示了超大规模数据中心需要考虑的7个重要因素，并强调，超大规模数据中心是有史以来最复杂的计算机。

目前世界上大概有3千万台超大规模服务器。英伟达在2016年9月推出TensorRT，这是专门用来服务超大规模数据中心的芯片。

2017年4月推出TensorRT 2；2017年9月推出Tensor RT 3。今天英伟达发布了TensorRT 4——它可以处理循环神经网络，与TensorFlow深度融合。完成网络训练后，它可以直接在设备上运行。

黄教主称，这一更新可以让图像加速190倍，自然语言处理加速50倍，推荐引擎提速45倍，语音提速36倍，语音识别率提高60倍。“总体而言，我们将超大规模数据中心的速度提高了100倍。会节省很多钱。”

黄教主接下来发布了Kubernetes，用来协调数据中心服务器海洋中的工作负载——目前已经可以被GPU识别。

Uber自动驾驶致死行人事件让自动驾驶技术的发展被推到了风口浪尖。本次发布会上，黄教主也着重强调了自动驾驶场景。

“安全是最重要的一件事。这是最难的计算问题。发生致命事故后，我们提醒自己，这项工作非常重要。我们需要一步一步地解决这个问题，因为这么多事情都处于危险之中。如果我们做得对，我们有非常大的机会挽救生命。”

而对于无人车的安全性，高效可用的芯片被摆上了举足轻重的地位。英伟达称已经花了五到七年的时间来了解这个系统。“我们正试图从头到尾思考这个问题，这里的四个支柱是：收集数据，训练模型，模拟，驾驶。”

黄教主接下来推出并详细介绍NVIDIA应用于自动驾驶场景的Perception基础架构：

每辆汽车都在收集PB级的数据，我们将其标记为数据因子 - 每月有1500人来标注100万件物品；

我们在NVIDIA DGX系统上进行训练，然后我们进行验证；

最终创建网络，我们现在在车上有10个网络。每个网络有10个DGX分配