带着手臂Neoverse成3 d数字

保罗McLellan

基于Arm的肖恩挂(奥斯汀)和节奏的杖梅特卡夫在手臂DevSummit做3 d设计,在演讲题为《实现3 d Neoverse N1: 3 d设计优点满足深入分析。他们所描述的实现是一个手臂Neoverse N1上实现两个死,然后在面对这一过程称为混合晶圆键合。这是手臂的首次面对面wafer-bonded设计。

有大量增加的兴趣和使用各种形式的先进包装经常会下朗朗上口的名字“摩尔多”。第一芯片使用3 d技术实际上是图像传感器,摄像头,翻转图像传感器本身在(输入的光通过减少死亡的后面),然后把它固定在图像处理器,可以把数据从传感器垂直而不必得到的边缘图像传感器的数据死亡。接下来的3 d芯片,有关注Xilinx FPGA的大,他们把数组分成四个相同的死和安装在中间。AMD的产品线的cpu都建立起来的一系列模具组装在一个插入器。AMD的司机是不会产生大的死,或者根本就不适合在十字线,加上使用的高端芯片HBM2差不多需要一个插入器的记忆。看设计的范围,使用先进的SiP (system-in-package),看到我的帖子热芯片:Chipletifying设计。

肖恩所说是更加雄心勃勃的:整体设计,并把它分割在两个相同大小的死,然后翻转前死并将它附加到下模形成三明治(如上图)。他将其描述为一个测试芯片但实际上更多的是一种概念,也没有计划在实际磁带和制造测试芯片。

有几个动机为什么您可能想要制造这样的处理器:

节能的带宽和更低的内存访问延迟
低成本从两个小模产生更好的比一个大
从计算密度更高更好的可伸缩性

去年他们先前的概念设计称为Trishul(他们报道的手臂TechCon虽然我没看见)证明3 d堆叠的准备:

GF 12 lp FinFET过程
工作频率为2.7 ghz (TT, 1 v, 85°C)
展示3 d的带宽2.355真沸点和3.68真沸点/平方毫米在复合材料- 600(搬运工)。
测量门延迟3 d层之间10-12ps的范围。在2 d相当于FO2门延迟
Cross-3D门延迟6-8ps可行
3 d设计不需要特殊考虑寄生3 d界面(全球线当量)
斜晶圆之间的可控的过程
3 d连接间距是3.76哦
测试2000 +死在34个晶片:1348.5万年累计3 d连接

对于这个项目,计划是堆栈的内存的上层3 d微处理器,因为内存是一个重要的瓶颈。原则上,处理器和相当大的内存需求,提高片上L2高速缓存的大小是一个有效的方法来提高性能……除了增加L2高速缓存的大小增加时间来访问该内存。折叠缓存超过顶部的管道的逻辑阶段减少访问时间。设计了7海里。

事实上,对于热的原因,更有意义的记忆(L1和L2缓存)层和逻辑层底部。这也使他们能够双L2高速缓存的大小。只能建立一个1 mb L2高速缓存9-cycle读3 d。在2 d,它需要两个额外的周期。

杆解释一些细节关于节奏3 d-ic解决方案。我不会重复,既然我已经覆盖广泛,例如在我的帖子约翰Chiplets公园的网络研讨会从几个月前。

这是用于这个设计的流程。有一些考虑,究竟发生了什么。块频繁交流应该分配到相邻的层,因为这减少的长度内嵌连接。这既增加了通信带宽,同时减少权力。但块高切换活动不应放置在互相垂直的保持温度曲线在指定范围之内。垂直连接被处理为虚拟锚细胞对,每死一个,3 d概念上一致(见例图)。

设计实际上是完成了虚拟锚细胞连接的虚拟线并不存在。最终,删除线和两个死去了。但与此同时,所有的2 d设计算法正常工作。

自死都是保税面对面(和是相同的大小),传统的倒装芯片包装将不工作因为“顶级”和“底”堆栈的实际上是死的臀部。权力处理through-silicon-vias底部(tsv)经历死亡。当时传播通过底部的死,和整个晶圆键前死亡。

肖恩也进入了很多细节构造时钟树在两个模使用Innovus实现和CCOpt工具。我要跳过这是太多的这样的一篇文章的深度潜水。但是时钟树比2 d实现,时钟延迟低18%,大约一半的数量时钟缓冲区,和时钟树低27%力量。不喜欢什么?

甚至一个2 d微处理器需要一定程度的热分析。这样是更重要的一个设计由于底部死是夹在包底物和前死去,所以有更多的热量有限的路径“逃脱”。前死在热与散热片接触少也是一个挑战。摄氏温度解算器是用于创建的热图。

上面的热图显示左边的N1 2 d(这是用于开发模型的包和散热片),和两个折叠N1死在右边。摄氏温度表明,稳态运行时的maxpower 6°C高于2 d N1。在现实中,这可能是降低由于maxpower超出现实的和是一个病毒能力向量。

Voltus被用来做红外光谱分析。这比以往任何时候都更为重要,因为所有的权力死穿过底部死。的确,Voltus显示,大多数IR降是通过柱堆放的TSV(见图)。

最终结论:

全面研究审核质量3 d高性能微处理器的物理设计,Neoverse N1 CPU、使用面对面的(F2F)键合技术
逻辑/ L2访问内存分区实现2-cycle低于2 d
RTL签收使用一个完整的节奏数码流3 d CPU实现实现类似的频率(< 5%)和大量的区域/权力利益与2 d设计作为该行业的先锋
时钟树综合显示时钟延迟,低18% ~ 50%减少时钟缓冲区,和时钟树低27%力量
详细的3 d生产和热分析完成:
- 生产显示最糟糕的下降6.2%位于logic-die底部,进一步优化通过堆叠柱从TSV PPA以最小的影响可以减少的影响
- 热分析显示最糟糕的峰值温度上升6度高于2 d,现实世界的影响可能较低,与先进的冷却技术可以减轻
测量数据从Trishul展示固体硅点证明应用3 d堆叠技术