先进封装最强科普

2023-1-21 19:13| 发布者: 夏梦飞雨| 查看: 313| 评论: 0

摘要: 半导体实验室赵工半导体工程师 2022-02-01 08:42在过去几年中，先进封装已成为半导体越来越普遍的主题。在这个由多个部分组成的系列中，SemiAnalysis将突破大趋向。我们将深化研讨完成先进封装的技术，例如高精度倒 ...

半导体实验室赵工半导体工程师 2022-02-01 08:42

在过去几年中，先进封装已成为半导体越来越普遍的主题。在这个由多个部分组成的系列中，SemiAnalysis将突破大趋向。我们将深化研讨完成先进封装的技术，例如高精度倒装芯片、热压键合 (TCB) 和各种类型的混合键合 (HB)。

本次深化讨论将包含各种代工厂、IDM、OSAT和无晶圆厂设计公司的运用状况、设备采购以及技术选择的差别。它还将包含 Besi Semiconductor、ASM Pacific、Kulicke and Soffa、EV Group、Suss Microtec、SET、Shinkawa、Shibaura和 Xperi 等公司对设备和供给链的评论。

先进封装最强科普

首先让我们讨论一下对先进封装的需求。摩尔定律以迅猛的速度展开。自台积电 32nm 失误以来，直到目前的 5nm 工艺节点，台积电的晶体管密度每年增长 2 倍。固然如此，真实芯片的密度每 3 年增长约 2 倍。这种较慢的速度部分是由于 SRAM 缩放、功率传输和热密度的消亡，但大多数这些问题都与数据的输入和输出有关。

先进封装最强科普

芯片上数据的输入和输出 (IO) 是计算的命脉。将内存置于芯片上有助于经过减少通讯开支来减少 IO 需求，但归根结底，这是一种有限的扩展途径。处置器必须与外部世界中止买卖以发送和接纳数据。摩尔定律使业界的晶体管密度大约每 2 年增加 2 倍，但 IO 数据的速率每 4 年才增加 2 倍。几十年来，晶体管密度与 IO 数据速率的这种差别呈现了庞大差别。共同封装的光学器件只是处置这个问题的一种措施，它并不是单独呈现的。

从基本上说，芯片需求容纳更多的通讯或 IO 点才干跟上。不幸的是，这方面的最后一个主要步骤功用增加是在 90 年代转向倒装芯片封装。

先进封装最强科普

传统的倒装芯片封装的凸点间距在 150 微米到 200 微米之间。这意味着每个 IO 单元在裸片的底侧相距 150 到 200 微米。台积电 N7将凸点间距降低到 130 微米，英特尔的 10nm 将凸点间距降低到 100 微米，这些进步被称为细间距倒装芯片。不要小看这些进步，由于它们极大地促进了更好的处置器，但 2000 年的封装技术与 2021 年的封装技术基原形同。

2000年的250mm的芯片与2022年的250mm芯片在晶体管数量、性能和成本方面有着难以置信的不同。摩尔定律每 2 年翻一番，表示晶体管数量增加了 2000 倍以上。显然，理想并不那么有利，但晶体管依旧增加了几个数量级。在硬币的另一面，封装没有享用同样水平的增长。

在台积电的 N7 节点上，AMD 的凸块间距从约 200 微米变为 130 微米，IO 仅增加了 2.35 倍。如前所述，英特尔在 10 纳米工艺上从200 微米的凸点间距变为 100 微米，从而完成了更大的缩放。这依旧只会使 IO 增加 4 倍。2.35倍或4倍的增加是相关于晶体管数量增加的舍入误差。

先进封装最强科普

这带来了pad（硅片的管脚）受限设计的概念。将旧设计转移到新工艺节点时，设计自身可能会大幅减少，但 IO 需求会阻止芯片尺寸减少多少。由于需求 IO，裸片尺寸坚持较大且留有空白空间。这些状况称为pad limited，并且十分频繁。

顺便说一句，这不只与将运用先进封装的前沿有关，而且与盘绕汽车芯片和普通半导体短缺的讨论有关。Intel 的首席执行官 Pat Gelsinger 以为，这些短缺的公司应该转向 Intel 16nm 代工效劳。

Pat Gelsinger表示，今天，我们宣布在英特尔 16 和爱尔兰工厂的其他节点上提供欧洲代工效劳，我们置信这有机遇辅佐加速终了供给短缺，我们正在与汽车和其他行业协作辅佐树立这些才干。但我也想说有些人可能会争辩说，好吧，让我们在旧节点上构建大部分汽车芯片。旧节点不需求一些旧晶圆厂吗？我们是想投资过去还是想投资未来？

一个新的晶圆厂需求 4 到 5 年的时间才干建成并具有消费价值。不是处置今天的危机，投资于未来，不要选择向后投资。相反，我们应该将一切设计迁移到新的现代节点，为未来增加供给和灵活性做好准备。

Intel的问题在于，当从古老的节点转移到相对现代的节点时，这些设计将遭到pad限制。由于每 mm的成本较高，单位成本经济学在这里不起作用，由于由于pad有限，芯片面积不能很好地缩放。除了这些成本之外，由于必须在较新的节点上重新设计旧芯片和整个重新认证过程，因而一次性成本也很高。将旧芯片移到新节点的处置计划是不可行的。

那么如何增加 IO 计数呢？

一种途径是寻觅使芯片更大的措施。面积越大，IO的空间就越大。这不是最佳途径，但设计人员会经常增加芯片上的内存，以便在芯片上存储更多数据。这反过来又在一定水平上减少了 IO 需求。AMD 最近的架构就是一个很好的例子，由于它们在 CPU 和 GPU 上都有庞大的缓存。

AMD 将其命名为 InfinityCache（无线缓存）。处置计划是经过提供大量的片上 SRAM 来存储处置器中与计算最相关的数据，从而降低内存带宽请求。在 GPU 范畴，AMD 明白表示他们能够经过添加无限缓存将 GDDR6 总线大小从 384 位减少到 256 位。苹果在这方面也很积极，在他们内部设计的处置器上塞满了大量的缓存。这些设计选择的一个组成部分与功率有关，但很大一部分也是由于pad限制。

另一种途径是添加各种专用电路以进步芯片效率。我们在大量的异构计算中看到了这一点。回到我们的Apple A15 芯片剖析，令人诧异的是 CPU 或 GPU 的专用区域如此之少。这是人们谈论最多的两个方面。Apple 没有专注于这些营销方面，而是将大量区域用于其他功用。固然没有标注，但右下角主要是图像信号处置器。这块庞大的部分正在做与拍照和视频相关的计算。还有另一个未标记的块与媒体编码和解码相关的计算有关。在 SoC 周围，以找到这些相当小的统一矩形，它们是 SRAM 缓存，可将更多数据保存在芯片上，而不用进入内存。

先进封装最强科普

这些工作负载不能在传统CPU上运转。AI的模型越来越大，Facebook 的深度学习引荐系统模型有超越12万亿个参数。不时收缩的模型尺寸努力于让你在应用上停留更长时间并点击更多广告。谷歌开发了自己的芯片，用于人工智能模型的锻炼和推理，称为 TPU。随着 VCU（一种新型处置器）的呈现，他们扩展了在芯片工作的研讨，假如专用于同一任务，它能够取代 1000 万个 CPU。

亚马逊有定制的网络芯片，也运转他们的管理程序和管理堆栈。他们具有自己的芯片，特地用于AI 锻炼、AI 推理、存储控制和 CPU。当你查看 Marvell 和 Broadcom ASIC 效劳的重点时，就会发现，硬件设计和架构的分散性只会增加。

就连英特尔，这家以为每个工作负载都应该在 CPU 上运转的公司，也认识到独一的行进道路是异构设计。与针对每项任务的通用 CPU 硬件不同，该行业正在采用常见的工作负载并特地为它们构建芯片。这使架构师能够取得更高的每单位硅性能。

长话短说，除了 CPU 之外，专用集成电路的异构集成是高高在上的。不外，更多内存和更多异构计算并不是万能的。固然经过增加内存和异构计算来增加芯片尺寸关于消弭pad限制和进步能源效率十分有用，但这些都是要花钱的。很多钱。

更多的芯片面积意味着更多的引脚、更多的集胜利能，但这也是成本失控的绝妙措施。并且芯片尺寸曾经抵达极限。例如，看看英伟达或英特尔的数据中心阵容。两者都接近“标线限制”超越 5 年。即便他们愿意，他们也无法继续制造更大的芯片。芯片收缩曾经大幅放缓，滋长了这个问题。

先进封装最强科普

因而，收缩曾经放缓，芯片尺寸无法增长得更大，设计也遭到pad的限制，这些是独一的问题吗?

不幸的是，不是。硅单元经济学也遇到了障碍。半导体行业及其下游企业单枪匹马地推进了整个经济的通缩环境，抵消了其他中央的通胀行动。没有它，80 年代以来的美国和欧洲将阅历无休止的滞胀。不外，这种改造性的通货紧缩力气正在遇到障碍。半导体单位经济没有改善。事实上，将晶体管减少到更小，它们以至变得更糟。制造大芯片不只昂贵，而且比之前的一代更昂贵。

先进封装最强科普

这张来自 AMD 的图表描画了一幅十分病态的画面。固然每个节点的转变并不相同，但很明显，在 7nm 和 5nm 处，该行业曾经抵达了拐点。每产出平方毫米的成本增加幅度不是很小，而是很大。固然节点转换带来了相似的密度增益，或者可能由于 SRAM 缩放速度放缓而更糟，但成本的增加并没有跟上。与每晶体管成原形关的趋向逆转令业界震惊。这种逆转具有庞大的影响，以至招致无知的银行家以此为理由，下调台积电的评级，称其估值过高。

先进封装最强科普

摩根士丹利以为，由于摩尔定律正在放缓，晶体管成本缩放曾经中止，台积电的定价压力将削弱。摩根士丹利经过一张可笑的图表来证明这一点，该图表显现 5nm 的晶体管成本低于 7nm，这与业内专家构成鲜明对比。随着 FinFET 节点的引入，每个晶体管的成本停滞不前，7nm 完整趋于稳定，而 5nm 则比以往任何时分都高。我们的读者能够算一算，N7 晶圆约为 9500 美圆，N5 晶圆约为16000 美圆。苹果的芯片尺寸简直没有降落，但他们付了钱。

因而，每个晶体管的成本仍在增加，但对计算的需求比以往任何时分都增加。我们转向异构架构中止回击，但往常芯片设计过程要艰难得多。该行业必须依托许多具有不同 IP 的团队按时托付并将其整合在一同。Synopsys 和 Cadence 等 EDA 供给商在辅佐方面做得十分出色，但这还不够。关于没有超越 1000 万个单元用例的任何人来说，一个能够置办特定应用 IP 或芯片并将其集成到硬件设计中的开放生态系统是必要的。即便关于这些公司，小芯片作风的系统架构也是答案。

随着我们继续收缩，预期收益率会迟缓降落。这是一个契合逻辑的结论，由于每个连续的节点都会增加约 35% 的流程步骤。当前沿流程在数千个流程步骤中中止权衡时，错误开端疾速堆积。工业公司喜欢谈论“Six Sigma”，但这对半导体制造来说还不够。让我们假定一个有 2000 个工艺步骤的过程，每个步骤的每 cm缺陷数为Six Sigma。那么D0（每 cm缺陷率的行业术语）最终将是0.678。芯片越大，呈现缺陷的可能性就越大。

假如这个假定的过程是构建英特尔的高端效劳器 CPU，Ice Lake。这将招致每个晶片有 4 个良好的裸片和 76 个有缺陷的裸片。往常思索这个剖析是在 cm水平上完成的，并且在前沿工艺节点上每 cm有数十亿个晶体管。半导体行业比Six Sigma好得多。

除了尺寸的圆满之外，还有什么处置计划？

Chiplets——小芯片！将大筹码分红许多小筹码。

AMD 是这方面最受欢送的例子，但这是整个行业的趋向。AMD 能够设计 3 个芯片，一个CPU 中心小芯片和 2 个 IO 芯片。这 3 种设计掩盖了很大一部分市场。同时，英特尔设计了 2 个 Alder Lake 台式机芯片和 3 个 Ice Lake 效劳器芯片，以效劳于相同的潜在市场。因而，AMD 能够俭省设计成本，制造比英特尔更多内核的 CPU，并俭省收益成本。

要演示 yield 参数，请参见下表。AMD将 CPU 内核拆分为 8 个 CPU 内核小芯片。假如良率是 100%，英特尔将能够以比 AMD 更低的每个 CPU 内核的成本制造内核。但相反，英特尔必须在每个 CPU 内核上破费更多，由于更大的芯片有更多的缺陷。下表有一些明显的正告，其中最大的假定是缺陷芯片的收获率为 0，并且英特尔和台积电具有相同的 D0。这些假定都不是真的，这个练习是为了演示目的。

先进封装最强科普

小芯片（Chiplet）很棒，但它不是孤立的处置计划。我们依旧遇到许多相同的问题。每个晶体管的成本仍在上升，设计成本飙升，由于需求更多 IO 来与其他芯片接口，小芯片被pad限制。由于 IO 限制，部分芯片无法拆分，因而芯片尺寸仍在抵达峰值。

处置措施是什么？

先进封装！

这就是我们要留意的中央，一些工具供给商将一切倒装芯片封装称为“先进封装”。SemiAnalysis 和大多数业内下游人士不会这么说。因而，我们将一切凸点尺寸小于 100 微米的封装称为“先进”。

先进封装最强科普

最常见的先进封装类别称为扇出。有些人会争辩说它以至不是先进的封装，但那些人大错特错。以Apple 为例，他们将让台积电采用应用处置器芯片，并将其与 90 微米到 60 微米数量级的更密集凸块封装到重组或载体晶圆/面板上。与传统倒装芯片封装相比，凸点密度大约高出 8 倍。

这种重组或载体晶圆/面板然后进一步展开 IO，因而得名扇出。然后将扇出封装衔接到主板。硅芯片的设计能够减少对pad受限的担忧，由于扇出处的pad较小。该封装还能够封装 DRAM 内存、NAND 存储和 PMIC。集成扇出不只有利于密度，而且它们还在封装上保存了大量的芯片间 IO。否则，该 IO 将不得不以更大的IO 间距尺寸经过主板中止接口。

集成扇出关于高性能应用程序变得越来越普遍，不只仅是移动应用程序。增长最快的用例是在十多年来设计不时遭到限制的事物的网络方面。AMD 将在其效劳器 CPU 和 GPU中十分积极地采用扇出。Tesla Dojo 1是集成扇出封装的另一个引人注目的例子，但在晶圆级。SemiAnalysis透露，特斯拉将在发布公告前运用这种包装类型。

先进封装最强科普

在先进封装中，有 2.5D 和 3D 封装。2.5D 触及封装在其他硅片上的硅片，但较低的硅片专用于布线，没有有源晶体管。这通常以55 微米到 50 微米的间距完成，因而凸点密度高出约 16 倍。最常见和最高容量的用例是具有 TSMC CoWoS（基板上晶圆上芯片）的 Nvidia 数据中心 GPU。台积电将有源芯片封装在只需互连和微凸点的晶圆上。然后运用传统措施将这叠芯片封装到基板上。

其他示例基本上包含每个带有 HBM 的处置器。HBM 是作为一种阶梯函数增加内存带宽的措施而树立的，这种措施高于传统方式的 DRAM。它经过运用更宽的内存总线来完成这一点。这些宽总线会产生与 IO 计数相关的问题，但 HBM 是从头开端设计的，以便在同一包内共存。这推翻了 IO 问题，同时也允许更紧密的集成。

2.5D 的更多示例包含基于Intel EMIB 的产品、Xilinx FPGA、AMD 最新的数据中心 GPU 和Amazon Graviton 3。

先进封装最强科普