Chiplet的奇思妙想
如果您希望可以时常见面,欢迎标星收藏哦~
芯片制造的光罩限制几乎一成不变为 26 毫米 x 33 毫米,采用极紫外光刻技术将晶体管尺寸缩小到 2 纳米,并针对高数值孔径极限将其切成两半,达到 26 毫米 x 16.5 毫米紫外光刻技术需要将晶体管尺寸推至 2 纳米以下,小芯片是不可避免的,单片芯片绝对将成为过去。
因此,问题出现了:当涉及大型小芯片复合体时,小芯片的最佳形状是什么,这些小芯片以及将它们连接在一起形成虚拟整体的互连的最佳排列是什么?苏黎世联邦理工学院和博洛尼亚大学的研究人员玩了一个小芯片俄罗斯方块游戏来试图找出答案,并想出了一个他们称之为 HexaMesh 的简洁配置。
设计小芯片互连拓扑是一项工程任务,需要平衡整个约束条件与相对少数的绝对必要条件,这根本不是理想的情况。在这种情况下,你所能做的就是微笑并承担你必须做出的妥协。Torsten Hoefler,苏黎世联邦理工学院教授、可扩展并行计算实验室 主任、瑞士国家超级计算中心机器学习首席架构师、HPC 社区的后起之秀,是 HexaMesh 论文的作者之一。
鉴于如今有如此多的组件位于网状互连上,并且我们见过的每个芯片都是矩形的,因此我们从未对具有 2.5D 中介层连接的基板封装中小芯片的物理配置进行过深入思考。我们还假设连接或多或少类似于我们在服务器架构中看到的 NUMA 链接。服务器 CPU 上的互连端口越多,CPU 与共享内存系统的耦合就越紧密,并且可以进一步扩展该共享内存系统。例如,您可以构建一台双插槽服务器,每个服务器只有一个链接,但通常有两个链接,因此它们都可以利用彼此的内存。每个 CPU 三个互连链路意味着您可以拥有四个完全连接的 CPU,或者八个 CPU,其中八个 CPU 中的六个在 CPU 之间仅具有一跳,而八个 CPU 中的两个需要两跳。
要构建小芯片网格,我们可以从四块构建块开始,但从每个小芯片中取出八个端口,以将任何小芯片完全连接到附近的其他八个小芯片。看起来很明显,对吧?
我们尝试了一些拓扑和物理配置,甚至像棋盘格一样间隔开小芯片,试图使小芯片角上的链接与小芯片面上的链接长度相同:
HexaMesh 人员说,没那么快:
他们在论文中写道:“为了将小芯片连接到封装基板,使用了受控塌陷芯片连接凸块,并将它们连接到硅中介层,使用了微凸块。” “这些凸块的最小间距限制了每 mm 2小芯片面积的凸块数量,从而限制了 D2D 链路的数量和带宽。因此,D2D链路成为ICI的瓶颈。由于 D2D 链路限制了 ICI 数据宽度,因此我们希望以尽可能最高的频率操作它们,以最大化其吞吐量。为了以高频率运行此类链路而不引入不可接受的误码率,我们必须将其长度限制到最小。如果我们只连接相邻的小芯片,D2D 链路的长度就会最小化。然而,由于连接如此受限,小芯片的形状和排列会对 ICI 的性能产生重大影响。”
好的,但是我们从小芯片出来的角链接是直接连接,所以我们很擅长理论上的 OctoMesh 方法,对吧?错误的:
小芯片显然不能很好地转弯。
我们还被告知,我们高估了一致性。我们一直将其视为一种恭维。。。。但也许不是,尤其是在 21 世纪。
反正。这些角到角链接的长度将比具有接触面的相邻小芯片上的长度长得多,这意味着这些角链接的错误率和延迟会更高。对于 NUMA 机器,根据 NUMA 互连路径,肯定会有不同的延迟,并且这些延迟肯定会影响这些共享内存机器的性能。大多数 NUMA 服务器都以某种方式在软件中进行分区,使工作负载更好地适应物理硬件,并且扩展对于相干内存来说肯定不是完美的。但对于 HexaMesh 创建者而言,您只能拥有相邻的链路,并希望具有一致的高带宽和低延迟以及可接受的信号完整性。
鉴于所有这些,HexaMesh 研究人员提出了四种不同的小芯片拓扑,并计算了每种方法的优点,概述如下:
我们在演示幻灯片中添加了描述网格中邻居范围、互连网络直径以及 2.5D 封装上小芯片的网格、蜂窝、Brickwall 和 HexaMesh 排列的二等分带宽的数学计算,因此您无需费力寻找围绕它。
一秒钟都不要想。只需看看上面的拓扑即可。蜂巢拓扑是不是很让人满意呢?但你不能拥有非矩形的小芯片,因为蚀刻和切割小芯片的机器不喜欢做其他形状。也许在22世纪我们会拥有这样的芯片,甚至在三维度上甚至像Damp;D die一样。。。。但再看看。HexaMesh 配置不是很坚固吗?它不是充分利用了网格、蜂窝和砖墙拓扑并将它们编织成某种东西,嗯,一旦您看到它就很明显?将其构建为更大的小芯片阵列将表明为什么您的想法真的喜欢这种 HexaMesh 配置。
当您从几个种子小芯片开始,然后扩展小芯片集群时,会发生以下情况:
使用 HexaMesh,您可以从一个缩进开始,然后围绕现有集群做一个圆周,从七个核心小芯片增加到总共十九个,再加上十几个。当然,这一切都假设小芯片尺寸相同。
虽然所有这些都是相当马赛克的工作,但重要的是芯片到芯片 互连的性能,并且为了大致了解这在现实世界中的外观,HexaMesh 研究人员运行了一些规范通用 Chiplet Interconnect Express(或 UCI-Express)通过 BookSim2 模拟器进行芯片到芯片互连,以了解不同芯片拓扑的表现。该模型假设每个链路有十几条电线,并且链路在 UCI-Express 的 16 GHz 上限下运行,可提供 32 GT/秒的数据速率。通过这些和其他输入,针对四种不同的小芯片排列运行场景,从两个小芯片扩展到一百个小芯片。
不同拓扑之间的性能随着小芯片数量的增加或减少而变化,但对于超过 10 个小芯片,Brickwall 和 HexaMesh 与 Grid 相比平均减少了 19% 的延迟,而 Brickwall 提供了 12% 的延迟。带宽提高了 34%,HexaMesh 的带宽提高了 34%。与 Grid 相比,HexaMesh 设置的网络直径减小了 42%,十到一百个小芯片的二段带宽提高了 130%。所有这些都是通过行业标准的矩形小芯片完成的。
点这里加关注,锁定更多原创内容
今天是《半导体行业观察》为您分享的第3703期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。