黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

2023-3-23 11:21| 发布者: fuwanbiao| 查看: 404| 评论: 9

摘要: 芯东西（公众号：aichip001）作者 | ZeR0 程茜编辑 | 漠影芯东西3月22日报道，全球AI计算技术盛会、一年一度的英伟达GTC大会如期而至！英伟达CEO黄仁勋（昵称“老黄”）一如既往衣着标记性的皮衣中止了78分钟演讲， ...

芯东西（公众号：aichip001）

作者 | ZeR0 程茜

编辑 | 漠影

芯东西3月22日报道，全球AI计算技术盛会、一年一度的英伟达GTC大会如期而至！

英伟达CEO黄仁勋（昵称“老黄”）一如既往衣着标记性的皮衣中止了78分钟演讲，满面笑容地分享英伟达又闷声干了哪些大事。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

总体来看，此次演讲可总结成一大「亮点」和一大「重点」。

「亮点」是英伟达秘密研发四年，向芯片制造业甩出一枚技术“核弹”——经过突破性的光刻计算库cuLitho，将计算光刻加速40倍以上，使得2nm及更先进芯片的消费成为可能。全球最大晶圆厂台积电、全球光刻机霸主阿斯麦、全球最大EDA巨头新思科技均参与协作并引入这项技术。

老黄还直接上了一堂光刻机小课堂，配合动画解说芯片制造的最关键设备光刻机是如何运作的。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

「重点」毫无疑问是生成式AI。

老黄对OpenAI的ChatGPT赞不绝口，夸它“震惊世界”，代表着“崭新的计算平台曾经降生，AI的「iPhone时辰」曾经到来”。

据英伟达透露，OpenAI将在微软Azure超级计算机上运用英伟达H100 GPU，AI文生图明星创企Stability.ai是H100 GPU的早期访问客户。

为了加速生成式AI开发及部署，老黄宣布推出3款全新推理GPU，分别擅长AI视频、图像生成、ChatGPT等大型言语模型的推理加速。

此外，英伟达还发布了AI超级计算效劳DGX Cloud、加速企业创建大模型和生成式AI的云效劳NVIDIA AI Foundations等，并宣布与日本三菱分离打造了日本第一台用于加速药研的生成式AI超级计算机。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

英伟达也发布了一系列面向元宇宙、汽车、量子计算范畴的新停顿，包含PaaS效劳NVIDIA Omniverse Cloud现已向特定企业开放、与宝马集团扩展协作树立虚拟工厂、比亚迪更多车型将采用NVIDIA DRIVE Orin平台，以及与Quantum Machines协作推出了全球首个GPU加速量子计算系统。

老黄宣布，英伟达曾经更新了100个加速库，目前英伟达全球生态系统已掩盖400万开发人员、4万家公司和1.4万家初创公司。

一、芯片制造炸场！将计算光刻提速 40 倍，三大半导体巨头站台

我们先来看看今天的“惊喜弹”：英伟达发布了一个造福先进芯片制造的突破性技术——NVIDIA cuLitho计算光刻库。

光刻是芯片制造过程中最复杂、最昂贵、最关键的环节，其成本约占整个硅片加工成本的1/3以至更多。计算光刻模仿了光经过光学元件并与光刻胶相互作用时的行为，应用逆物理算法来预测掩膜板上的图案，以便在晶圆上生成最终图案。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

简而言之，计算光刻是进步光刻分辨率、推进芯片制造抵达2nm及更先进节点的关键伎俩。

“计算光刻是芯片设计和制造范畴中最大的计算工作负载，每年耗费数百亿CPU小时。”黄仁勋解说道，“大型数据中心24×7全天候运转，以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美圆的资本支出的一部分。”

而cuLitho能够将计算光刻的速度进步到原来的40倍。老黄说，英伟达H100 GPU需求89块掩膜板，在CPU上运转时，处置单个掩膜板需求两周时间，而在GPU上运转cuLitho只需8小时。

此外，台积电可经过在500个DGX H100系统上运用cuLitho加速，将功率从35MW降至5MW，替代此前用于计算光刻的40000台CPU效劳器。运用cuLitho的晶圆厂，每天能够消费3-5倍多的光掩膜，仅运用当前配置电力的1/9。

全球最大晶圆厂台积电、全球最大光刻机制造商阿斯麦（ASML）、全球最大EDA公司新思科技（Synopsys）都为这项新技术站台。老黄透露道，cuLitho历时四年研发，与这三家芯片大厂中止了密切协作。台积电将于6月开端对cuLitho中止消费资历认证。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

台积电CEO魏哲家夸奖它为台积电在芯片制造中普遍地部署光刻处置计划开辟了新的可能性，为半导体范围化做出重要贡献。阿斯麦CEO Peter Wennink说阿斯麦计划将对GPU的支持集成到其一切的计算光刻软件产品中。

新思科技董事长兼CEO Aart de Geus称，在英伟达的cuLitho平台上运转新思科技的光学临近校正（OPC）软件，将性能从几周加速到几天。

cuLitho将有助于晶圆厂缩短原型周期时间、进步产量、减少碳排放，为2nm及更先进的工艺奠定基础，并使得曲线掩模、high NA EUV、亚原子级光刻胶模型等新技术节点所需的新型处置计划和创新技术成为可能。

二、发布 ChatGPT专用推理GPU， 登阅读器即可访问AI超级计算机

盘绕生成式AI，英伟达发布了一系列加速模型锻炼和推理的软硬件新品及效劳。

老黄首先讲述了英伟达在生成式AI反动之初是如何进入AI范畴的。

“英伟达加速计算始于DGX（AI超级计算机），这是大型言语模型完成突破背地的引擎。”他谈道，“（2016年）我亲手将全球首款DGX交给了OpenAI，自此以后，《财富》100强企业中有一半装置了DGX AI超级计算机。DGX已成为AI范畴的必备工具。”

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

“生成式AI将重塑简直一切行业。”老黄说，ChatGPT、Stable Diffusion、DALL-E和Midjourney唤醒了世界对生成式AI的认知。

在他看来，生成式AI是一种新型计算机、一种能够用人类言语中止编程的计算机，与个人电脑（PC）、互联网、移动设备和云相似，这种才干影响深远，每个人都能够命令计算机来处置问题，往常每个人都能够是程序员。

1、锻炼：生成式AI明星企业都在用，AI超级计算机已全面投产

锻炼方面，英伟达H100 GPU基于Hopper架构及其内置Transformer Engine，针对生成式AI、大型言语模型和引荐系统的开发、锻炼和部署中止了优化，应用FP8精度在大型言语模型上比上一代A100提供了快9倍的AI锻炼和快30倍的AI推理。

DGX H100具有8个H100 GPU模组，在FP8精度下可提供32PetaFLOPS的算力，并提供完好的英伟达AI软件堆栈，助力简化AI开发。黄仁勋宣布，NVIDIA DGX H100 AI超级计算机已全面投入消费，很快将面向全球企业。微软宣布Azure将向其H100 AI超级计算机开放私人预览版。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

黄仁勋说，云计算巨头往常正在提供英伟达H100GPU，生成式AI范畴的多家明星企业都在用H100加速工作。

好比，OpenAI用H100的上一代A100锻炼和运转AI聊天机器人ChatGPT，并将在微软Azure超级计算机上运用H100；AI文生图明星创企Stability.ai是AWS上的H100早期访问客户。

最近刚推出开源大模型的社交软件巨头Meta开发了基于Hopper架构的AI超级计算机Grand Teton系统。相比其前代Zion，该系统的算力大幅提升，可同时支持引荐模型和内容了解的锻炼和推理。

英伟达与其主要协作同伴宣布推出强大的GPU NVIDIA H100 Tensor Core GPU新产品和效劳，以满足生成式AI锻炼和推理需求。

AWS宣布行将推出的EC2超级集群（EC2 P5实例）可扩展至20000个互连的H100。Oracle Cloud Infrastructure（OCI）宣布限量推出采用H100的全新OCI Compute裸金属GPU实例。

为企业和开发者提供多模态视频了解的平台Twelve Labs计划在OCI Supercluster上运用H100实例来即时、智能和容易搜索视频。

2、推理：发布3款GPU、3类云效劳

推理方面，英伟达推出全新GPU推理平台：4种配置（L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超级芯片）、一个体系架构、一个软件栈，分别用于加速AI视频、图像生成、大型言语模型部署和引荐系统。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

（1）L4：针对AI视频设计的通用GPU，可提供比CPU高120倍的AI视频性能，能效进步99%；优化了视频解码与转码、视频内容审核、视频通话等功用，如背景交流、重新打光、眼神交流、转录和实时翻译等。一台8-GPU L4效劳器将取代100多台用于处置AI视频的双插槽CPU效劳器。

（2）L40：用于图像生成，针对图形和AI支持的2D、视频和3D图像生成中止了优化，推理性能是英伟达最受欢送的云推理GPU T4的10倍。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

（3）H100 NVL：针对ChatGPT等大型言语模型的大范围部署，配备双GPU NVLink，将两张具有94GB HBM3显存的PCIe H100 GPU拼接在一同，可处置具有1750亿参数的GPT-3大模型，同时支持商用PCIe效劳器轻松扩展。

老黄说，目前在云上独一能够实践处置ChatGPT的GPU是HGX A100。与适用于GPT-3处置的HGX A100相比，一台搭载4对H100及双GPU NVLink的规范效劳器的速度要快10倍，H100可将大型言语模型的处置成本降低一个数量级。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

（4）Grace Hopper超级芯片：适用于引荐系统和大型言语模型的AI数据库，图引荐模型、向量数据库和图神经网络的理想选择，经过900GB/s的高速分歧性芯片到芯片接口衔接英伟达Grace CPU和Hopper GPU。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

谷歌云是第一个向客户提供英伟达L4推理GPU的云效劳提供商。谷歌还将L4集成到其Vertex AI模型商店中。

3、云效劳：登阅读器即可访问AI超级计算机

英伟达推出了一项名为DGX Cloud的AI超级计算效劳，与微软Azure、谷歌OCP、Oracle OCI协作，经过一个Web阅读器就能访问，以便企业为生成式AI和其他开创性应用锻炼先进的模型。

DGX Cloud实例的起价为每个实例每月36999美圆。其每个实例都具有8个NVIDIA H100或A100 80GB Tensor Core GPU，每个节点共有640GB的GPU内存。DGX Cloud提供了专用的NVIDIA DGX AI超级计算集群，并配备了NVIDIA AI软件。

英伟达还推出了全新云效劳及代工厂NVIDIA AI Foundations，使企业能够构建、改进、运营运用其专有数据锻炼的、用于特定范畴任务的定制大模型和生成式AI模型：

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

（1）NeMo：文本生成模型构建效劳，提供从80亿到5300亿个参数的模型，会定期更新额外的锻炼数据，辅佐企业为客服、企业搜索、聊天机器人、市场情报等生成式AI应用中止模型定制。

（2）Picasso：视觉言语模型构建效劳，具有先进的文生图、文本转视频、文本转3D功用，可为产品设计、数字孪生、角色创建等运用自然文本提示的应用快速创建和定制视觉内容。

（3）BioNeMo：生命科学效劳，提供AI模型锻炼和推理，加速药物研发中最耗时和成本最高的阶段，可加速新蛋白质和治疗措施的创建以及基因组学、化学、生物学和分子动力学研讨。

直接在阅读器上或经过API，均可访问这些运转在NVIDIA DGX Cloud上的云效劳。NeMo、BioNeMo云效劳已开放早期访问，Picasso云效劳正在私人预览中。

英伟达也宣布了一系列跟生成式AI相关的协作停顿，包含与Adobe协作开发新一代先进的生成式AI模型；与Getty Images协作锻炼担任任的文生图、文本转视频基础模型；与Shutterstock协作，锻炼从简单文本提示中创建生成式3D模型，将创作时间从几小时减少到几分钟。

此外，英伟达与三菱分离发布了将用于加速药物研发的日本第一台生成式AI超级计算机Tokyo-1。经过在Tokyo-1上运用NVIDIA BioNeMo软件，研讨人员能运转高达数十亿参数的先进AI模型，包含蛋白质结构预测、小分子生成、姿势估量等。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

三、 BlueField-3 DPU 已投产，打造全球首个 GPU 加速量子计算系统

数据处置单元（DPU）方面，黄仁勋宣布英伟达BlueField-3 DPU已投入消费，并被百度、CoreWeave、京东、微软Azure、Oracle OCI、腾讯游戏等抢先的云效劳提供商所采用，以加速其云计算平台。

面向量子计算，要从量子噪声和退相干中恢复数据，需求对大量量子比特中止纠错。对此，英伟达与Quantum Machines协作推出了一个量子控制链路，它可将英伟达GPU衔接到量子计算机，以极快的速度中止纠错。

双方协作研发的全球首个GPU加速量子计算系统NVIDIA DGX Quantum，将强大的加速计算平台（由NVIDIA Grace Hopper超级芯片和CUDA量子开源编程模型支持）与全球最先进的量子控制平台OPX分离在一同，使研讨人员能够构建强大的应用，将量子计算与最先进的经典计算分离起来，完成校准、控制、量子纠错和混合算法。

NVIDIA DGX Quantum的中心是NVIDIA Grace Hopper系统，经过PCIe衔接到通用量子控制系统Quantum Machines OPX+，完成QPU和量子之间的亚微秒延迟处置单元（QPU）。

DGX Quantum还为开发人员配备了一款强大的混合GPU-Quantum编程模型NVIDIA CUDA Quantum，能够在一个系统中集成QPU、GPU、CPU并中止编程。多家量子硬件公司将CUDA Quantum集成到他们的平台中。

美国通讯巨头AT&T宣布与英伟达协作，运用英伟达全套AI平台改进运营并进步可持续性。AT&T将运用英伟达AI平台中止数据处置、优化效劳排队、创建员工支持和培训的对话式AI数字化形象。

四、推出新一代元宇宙效劳器，引入生成式 AI 和模仿仿真更新

面向元宇宙范畴，英伟达推出了第三代OVX计算系统和新一代工作站，为基于NVIDIA Omniverse Enterprise的大范围数字孪生提供动力。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

第三代OVX效劳器经过组合双CPU平台、BlueField-3 DPU、L40 GPU、两个ConnectX-7 SmartNIC和NVIDIA Spectrum以太网平台，提供了突破性的图形和AI性能，可加速大范围数字孪生模仿等应用，进而进步运营效率和预测性规划功用。

企业能够应用OVX性能在可视化、虚拟工作站和数据中心处置工作流程等方面中止协作。

此外，新一代NVIDIA RTX工作站RTX 4000 SFF Ada Generation采用英伟达Ada Lovelace GPU、ConnectX-6 Dx SmartNIC和英特尔至强处置器。最新发布的RTX 5000 Ada一代笔记本电脑GPU使专业人士能随时随地访问Omniverse和工业元宇宙工作负载。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...

黄仁勋还宣布了英伟达用于构建和操作元宇宙应用的平台NVIDIA Omniverse的相关更新，增加了一系列生成式AI、模仿仿真相关功用，让开发者能够更轻松地部署工业元宇宙应用。

平台即效劳（PaaS）NVIDIA Omniverse Cloud现已面向特定企业开放，使企业能够在其中心产品和业务流程中统一数字化。

“从大型物理设备到手持消费品，每一个人造物体都有一天会具有一个数字孪生，用来建造、操作和优化物体。”黄仁勋说，“Omniverse Cloud是用于工业数字化的从数字到物理的操作系统，它的呈现正好赶上了正在树立的价值数万亿美圆的新电动汽车、电池和芯片工厂。”

英伟达选择微软Azure作为Omniverse Cloud的首个云效劳提供商。由NVIDIA OVX计算系统提供支持的Omniverse Cloud将于今年下半年与微软Azure一同推出。企业可访问Omniverse软件应用程序的全堆栈套件和NVIDIA OVX基础设备，并享有Azure云效劳的范围战争安性。

Azure上Omniverse Cloud的新订阅效劳使汽车团队可轻松完成工作流程的数字化，无论是衔接3D设计工具以加速汽车开发，还是构建汽车的数字孪生工厂或运转闭环模仿来测试车辆性能。

老黄在演讲期间分享了一个视频，展示亚马逊如何用英伟达Omniverse平台构建完整真切的数字孪生机器人仓库，以俭省时间和金钱。

黄仁勋向台积电放核弹！干掉40000台CPU效劳器，计算光刻 ...