登录

硅生命周期管理对芯片架构的现实影响


速读:硅生命周期管理对芯片架构的现实影响2025年12月22日14:23电子产品世界通过SLM设计具备韧性的芯片,有助于对抗老化效应、安全威胁,并以更高良率更快进入市场。 硅生命周期管理(SLM)正在改变芯片架构。 “首要考虑因素是清楚地了解需要哪些类型的传感器/监控器,需要多少个,以及它们应放置在哪里,”GeirEide表示,他是SiemensEDATessent硅生命周期解决方案的产品管理高级总监。 通过应对数据处理、测试基础设施以及系统集成方面的细微差别,架构师可以更好地定位其设计,从而在硅生命周期的各个阶段充分实现SLM所带来的收益。 例如,一个提供时序裕量或工艺信息的传感器网络,可能只需通过APB等标准接口与这些传感器交互即可。
2025年12月22日 14:23

通过 SLM 设计具备韧性的芯片,有助于对抗老化效应、安全威胁,并以更高良率更快进入市场。

硅生命周期管理(SLM)正在改变芯片架构。通过利用从制造阶段到在现场服役直至生命周期结束所获得的数据,SLM 赋能设计人员构建更智能、更具韧性且更安全的半导体器件。

这些数据可用于改进未来设计、缩小设计裕量,并在芯片整个生命周期内持续优化性能和功耗效率。此外,对完整生命周期的理解还能使芯片设计更能抵御老化效应和新型安全威胁,并具备在部署后监测并潜在缓解问题的能力。

“SLM 的终极承诺在于发现那些原本几乎不可能被发现的问题,从而缩短生命周期,并提升良率、可靠性、安全性、上市时间以及运营成本,” Simon Rance 表示,他是 Keysight EDA 工艺与数据管理业务的总经理兼业务单元负责人。“将 SLM 组件和模块嵌入设计中,以支持遥测以及测试和调试能力,本身就是一项挑战,而且往往需要具备相当专业知识的专家才能高效完成。尽管前期投入相当大,但在后端会获得丰厚回报,因为你采用的是一种左移式方法,几乎可以实时发现问题,从而更早、更快速地进行迭代和优化。”

通过在芯片和封装中插入监控器所收集的数据,还可以改进失效分析和质量控制,加速良率爬坡,并帮助更快地识别问题的根本原因。反过来,这可以缩短上市时间,同时为依赖长期性能和可靠性的全新服务和商业模式打开大门,例如汽车或消费电子行业。

“这要求我们从芯片内部去看问题,并在不同物理参数上具备极高分辨率的可视性,从而支撑我们按芯片级别来刻画其预期测量表现的能力,” Noam Brousard 表示,他是 proteanTecs 的解决方案工程副总裁。“我们在芯片内部部署了高分辨率监控器,能够消除噪声因素,直接观察工艺本身。我们还做了一些更新颖的事情,比如观察路径延迟,主要是在测试的后期阶段进行测量,并将其与我们在前硅阶段通过仿真得到的预期结果进行比较。我们在比较数百万条路径的时序裕量,或者数百万条路径的延迟,与仿真结果进行对照。”

尽管 SLM 的优势显而易见,但将这些能力集成到芯片设计中也引入了新的复杂性和必须在整个开发过程中加以解决的考量。这引出了一个重要问题:SLM 策略应如何根据特定用例进行定制,以及由此带来的架构决策。

“硅生命周期管理的一个挑战在于它是依赖用例的,” Randy Fish 表示,他是 Synopsys 的 SLM 产品线总监。“今天的测试非常复杂,但你想要实现的目标基本上还是清楚的。而 SLM 作为测试的近亲,则更加以用例为驱动。存在在现场的用例,在这些场景中你会在任务模式下使用这些信息;也存在在测试阶段的用例,你会在扫描测试或系统级测试期间使用这些信息。根据你试图实现的目标不同,对架构的影响也会不同。如今在一颗高度复杂的芯片上,比如一个大型芯片用于 AI 推理或训练,你可能会有数百个感测点的 PVT(工艺、电压、温度)监控器。这已经不再只是芯片角落里的一个热二极管,而是一个复杂的基础设施,数据汇入一个 PVT 控制器——这是一个 RTL 控制器,多个监控器都可以接入其中。你还可以有多个控制器,它们通过 APB 或其他接口,最终通常会连接到系统控制处理器(SCP)。很多人使用 Arm 控制器或其他来源。然后数据可以在那里集中。或者在像 ABS 这样的场景中,你可能不仅希望这些数据被送入一个软件解决方案中,例如用于在芯片外部管理 PMIC,还希望进入一个硬件解决方案中,以便能够非常快速地做出响应。因此你会在芯片内有 LBO 等具备极快响应能力的模块,希望它们在几个周期内完成响应,而不是像 PMIC 那样以慢得多的频率响应。这些可以由软件管理,因此架构会根据你试图解决的问题集而呈现出极大的多样性。”

图 1:SLM 加测试解决方案栈的示例架构。来源:Synopsys 图 1:SLM 加测试解决方案栈的示例架构。来源:Synopsys 随着芯片架构师权衡这些因素并应对 SLM 集成的复杂性,实际的实现细节变得至关重要。正是在这里,专家见解和真实案例为塑造有效生命周期管理策略的挑战和解决方案提供了启示。

“首要考虑因素是清楚地了解需要哪些类型的传感器/监控器,需要多少个,以及它们应放置在哪里,” Geir Eide 表示,他是 Siemens EDA Tessent 硅生命周期解决方案的产品管理高级总监。“一方面,可以重新利用可测性设计(DFT)结构来支持高质量的在现场测试。由于这些结构在设计中已经存在,对设计及设计流程的影响相对较小。另一方面,一些传感器(例如裕量监控器)对物理放置非常敏感,整体结果质量也取决于在设计中插入了多少传感器。而传感器的放置本身也具有挑战性,因为最敏感的路径直到布局布线之后才能确定,而在那个阶段你通常并不希望再向设计中插入额外的对象(传感器)。”

Eide 还指出,另一个重要考量涉及从所有传感器收集数据所使用的基础设施。“测量将以多高的频率进行?是在功能运行期间持续测量,还是作为诊断测试的一部分偶尔测量?需要收集多少数据?重用功能总线或其他现有基础设施(例如 IEEE 1687 IJTAG)可能是有利的,但这未必可行,这取决于带宽需求以及传感器运行时机的要求(例如是在完全功能模式下还是在结构测试期间)。尤其对于复杂设计,数据量大、监控器多,采用一种可良好扩展的方法非常重要。”

所有这些都意味着,SLM 正在改变复杂 SoC 的架构方式。“随着工艺缩放极限收紧、可靠性裕量压缩,设计团队正在硅中嵌入密集的传感器、监控器、计数器和跟踪点网络,以暴露有关电压跌落、热梯度、时序裕量、老化以及工作负载行为的实时信息,” Andy Nightingale 指出,他是 Arteris 的产品管理与市场副总裁。“这些数据不再只是后硅阶段的辅助手段——它正成为一种架构输入,从首次上电到生命周期结束,塑造功耗、性能、可靠性和安全性的管理方式。”

对于芯片架构师而言,SLM 的存在要求一种思维转变。“监控基础设施必须在架构阶段尽早规划,而不是在 RTL 阶段才事后补加。这包括定义传感器的位置、其数据如何汇聚,以及遥测流量如何与对性能至关重要的流量共存。互连结构在这里扮演着核心角色:现代 NoC 必须提供隔离性、可预测的时延以及韧性特性,使 SLM 流量能够在大规模条件下安全传输,”Nightingale 说。

随后,在技术基础确立之后,芯片架构师还必须关注在多样化系统环境中实现 SLM 的现实问题,在先进 SLM 监控的复杂需求与复杂 SoC 架构固有的运行挑战之间取得平衡。

“SLM 系统可以与整体 SoC 架构紧密耦合,也可以松散耦合,这取决于已定义的需求,” Vikram Karvat 表示,他是 Movellus 的首席运营官。“可以从两个方面来看待 SLM——传感器和执行器。传感器可以松散耦合,对架构影响较小。例如,一个提供时序裕量或工艺信息的传感器网络,可能只需通过 APB 等标准接口与这些传感器交互即可。当你不仅仅是在感知,而是要基于传感器输出采取实时动作时,执行器就会发挥作用。此时,感知与执行相结合的功能实现就需要提前规划,因为 SoC 架构师正是利用这种组合在特定情形下实现性能目标和架构保证。规划可能涉及时钟和电源域的划分、DVFS/DFS 架构及其能力、布局考虑、封装设计、PDN 设计等。随着时间推移,丰富的遥测数据当然还会形成一个前馈环路,用于下一代硅设计和架构决策。这可以从两个维度来理解——感知与执行,以及当前硅与后续硅世代。”

除了硬件方面的考量,SLM 还应包括能够挂接到设计中的软件,并需要在实时和在役状态下进行验证。“鉴于我们公司在测试与测量领域的根基,我们正在寻找新的方法,尽可能早地在设计周期中引入所有这些能力,”Keysight 的 Rance 表示。“这确实具有挑战性,但我们发现,当你把事情做对,并运用我们所具备的能力和专业知识时,通常可以更快地启动,并帮助客户更快地实现目标。这几乎像是在整个生命周期中牵着手前行,而不是只面对一个团队。设计团队、测试团队、测量团队、验证团队和制造团队在传统上并不常交流,通常只是一个团队向下一个团队交接。挑战在于如何让他们协同合作,如何让他们在合适的时间共享正确的信息,以及这些流程如何实现自动化。这正是工作流发挥作用的地方——它们帮助把所有团队、所有要素和所有数据拉通。如何拥有一个能够支撑并追溯这一切的单一真实数据源?”

Siemens 的 Eide 提到了两个 SLM 实施示例。“已有许多超大规模云服务公司报告了在兆规模数据中心中现场错误的影响,”他说。“这些错误往往非常难以检测。其中许多可以追溯到与时序相关的问题,因为晶体管的性能会随时间变化。亚马逊云服务曾发表论文,介绍如何扩展通常用于制造测试的可测性设计方法和基础设施,通过‘在现场 IC 监控、更换失效部件,以及定位现场诊断失败’来解决此类与时序相关的问题。”

在第二个示例中,Meta 描述了其 IC 调试架构如何支持在现场的软件调试与分析,这是监控之后的步骤。在这里,重点在于软件性能,而非 IC 缺陷或老化。

SLM 还可用于功耗监控与优化。Movellus 的 Karvat 提到了电压跌落缓解、电源网络可视化以优化 DVFS 设定点、主动 DFS 以及 DVFS 控制。目标是实现代码重分区或调度,以平滑电流消耗或避免热点,并通过智能自适应来缓解老化效应。

其他公开示例表明,这已经在影响设计选择。“Arteris 的 FlexNoC 和 Ncore IP 已被 AMD、Mobileye 和 Blaize 等合作伙伴用于 AI、汽车以及基于 chiplet 的设计中,在这些设计里,互连不仅用于数据传输,还用于在大型分布式系统中路由 RAS、调试和监控信息,”Nightingale 指出。

这些实际案例和技术细节突显了 SLM 解决方案如何从理论概念演进为现代芯片设计中的关键组成部分。随着行业采用更加复杂的传感器网络、集成化工作流和自适应架构,SLM 的重要性只会不断提升,为硅开发和生命周期管理的新范式奠定基础。

“在以 AI 驱动、自我演进的设计自动化为基础的背景下,SLM 不仅仅是一种架构增强,” William Wang 表示,他是 ChipAgents 的 CEO。“它成为下一代代理式 EDA 系统的数据与智能基底。在传统设计流程中,架构师基于仿真和前硅假设,在性能、功耗和可靠性之间做出静态权衡。而有了 SLM,真实世界的遥测数据会直接反馈到设计生态中,使 AI 代理能够持续从已部署的硅中学习。这将前端流程转变为一个活的、自适应的闭环,其中 RTL、验证策略甚至架构模板都会根据现场数据动态演进。”

对于自我演进的设计代理而言,SLM 数据既是上下文,也是事实依据。“工艺偏差、工作负载行为以及退化模式不仅被监测,还被用于重新训练优化模型,”Wang 说。“代理可以提出渐进式的架构改进建议,重新参数化模块,甚至重新综合局部逻辑块,以获得更高的效率和更长的寿命。从这个意义上说,芯片成为其自身设计反馈机制的一部分,弥合了设计意图与运行现实之间的鸿沟。”

要充分发挥这一点,前端架构需要具备模块化、可参数化和自省能力,并以内嵌、可被代理读取的设计意图构建,使 AI 代理能够自主推理权衡。“EDA 环境必须通过标准化 API 和语义层暴露 SLM 数据,使代理无需人工干预即可理解,”他说。“安全性和数据溯源机制在这里同样至关重要:代理必须信任其所采取行动所依据的数据,确保任何设计演进都是安全、可验证且可解释的。”

最终,ChipAgents 的愿景是利用 SLM 将硅同时变成产品和老师。“每一颗部署在现场的芯片都会为集体智能做出贡献,塑造未来世代的设计。EDA 的前沿正在从静态自动化转向主动协作,在这一连续反馈生态中,智能设计代理与具备自我感知能力的芯片共同演进。最好的希望或许在于通过 AI 代理连接前硅与后硅,”Wang 补充道。

鉴于这些创新和战略考量,SLM 技术的集成正在为系统架构师带来新的复杂性和机遇。随着组织从理论和早期部署迈向实际实施,下一步是理解如何在真实设备和工作流中利用 SLM 数据和基础设施以获得切实收益。

对于此前未在其器件中引入 SLM 监控器的架构师而言,需要提出若干问题,而这些问题都指向具体用例。

“首先,我们打算如何使用这些数据?”Synopsys 的 Fish 表示。“最容易实现的目标是,‘我只是想访问这些数据。我们从来无法一直看到芯片内部发生了什么,所以我希望具备基础设施和遥测能力,能够实时查看温度、裕量、电压和毛刺的变化。’或者,‘我们希望在一段时间内收集数据,然后再将其导出芯片。’数据将在芯片上如何收集?由哪个处理器来收集?存储在哪里?是缓存在内存中,还是通过主板上的基板管理控制器进行服务,或者是在机架顶部进行服务,甚至像汽车那样一路回传到云端?这意味着遥测架构是架构师非常关心的内容。其中一部分归结为速率和带宽。如果你只是偶尔触发一次,或者只在超过某个阈值时告警,也许速度要求较低,不需要缓冲太多数据。但如果你试图流式传出大量信息来分析某个工作负载,那么所使用协议的速度、缓冲区大小,以及你多频繁地对数据进行处理以将其压缩为有用信息,就都非常关键,因为你不可能一直把所有数据从芯片中流式输出。具备智能处理能力非常重要,因为这会影响你系统控制处理器的规模选择。是 M0?还是 M3?今天需要多大规模?它运行 Linux 还是 RTOS,或者是裸机?”

在这里,特定 IP 可能会非常有用,例如通过 PCIe、USB 或其他通信协议来运行扫描序列,以支持在现场扫描测试,这随后就成为在现场体验的一部分,使系统能够运行系统级测试,或者出于功能安全(FUSA)的目的运行安全测试。对在现场结构测试的需求正在增加,以尝试隔离失效器件中发生的问题,例如静默数据损坏场景,而测试是理解这些问题的关键组成部分。

“我们在你不得不通过冗余、增加裕量或加大防护带来补偿之前,就标记出那些离群芯片,”proteanTecs 的 Brousard 表示。“我们不仅能看到某条路径是否未达到预期的时序裕量,即便达到了,也能判断它究竟有多接近极限。这是一种看待芯片的全新方式——不仅仅是通过或失败,而是即使通过了,也可能只是勉强通过,很可能在其生命周期的很早阶段就发生失效。”

在这些基础性问题和实际考量的指引下,迈向有效 SLM 部署的旅程需要对可用的架构选择和实现策略进行更深入的探索。通过应对数据处理、测试基础设施以及系统集成方面的细微差别,架构师可以更好地定位其设计,从而在硅生命周期的各个阶段充分实现 SLM 所带来的收益。

“归根结底,还是要看 SoC 架构试图解决什么问题,”Karvat 说。“是功耗优化、性能优化、性能保证、封装和测试成本优化,还是为上层软件提供信息,等等?这个问题将决定他们需要考虑什么。SLM 可以很简单,也可以很复杂,其使用方式也可以不断演进。”

在做出 SLM 选择时,Karvat 表示,芯片架构师和设计人员应考虑从台架表征、任务模式到在现场测试的各种 SLM 用途,以及如何在多个阶段复用同一套基础设施。“每一颗 SoC 都不同,因此要通过选择可在后硅阶段调节、并可在不同设计中复用的组件来保持灵活性。同时,使用开放/标准的硬件和软件接口,因为没有任何单一供应商能够提供你所需的一切。你需要能够混合搭配组件,并拥有可在异构环境中适配需求的软件基础设施。软件和固件不一定要免费,但必须具备可适应性,以满足包括定制在内的需求。”

架构师和设计人员还需要认识到,SLM 覆盖整个生命周期:设计、bring-up、优化、现场可靠性以及车队级分析,Arteris 的 Nightingale 观察到。“嵌入传感器只是开始。NoC 必须支持遥测的 QoS 隔离、敏感监控数据的安全域,以及为 DVFS 回路、错误处理框架和自愈机制提供的控制路径。验证也必须扩展到 SLM 覆盖,包括故障注入、时间戳同步和事件关联。只有当遥测数据能够无缝连接到固件、驱动和分析框架时,其价值才能真正体现。随着行业迈向更大规模的多芯片 AI 加速器、汽车安全平台以及超大规模云级 chiplet,SLM 在架构中的占比将持续扩大——使可观测性和生命周期智能与计算吞吐量或内存带宽一样基础。”

从根本上讲,SLM 是一个非常宽泛的概念。“对于任何特定的 SLM 实现而言,重要的是聚焦并理解具体目标是什么,我们试图解决哪些问题,”Siemens EDA 的 Eide 补充道。“你是想检测问题,还是具备诊断和解决问题的能力?针对某一需求,可能有多种解决方式,从使用传感器到基于软件的解决方案不一而足,而聚焦的范围有助于提高成功概率。也许对设计人员来说不那么显著,但总体而言非常重要的一点是,SLM 不仅仅关乎芯片本身,它关乎整个系统。在芯片之外,还有许多拼图要素,例如数据传输、安全性和分析。如果缺少这些部分,传感器和监控器的价值就大打折扣。这也意味着我们必须回答诸如:当一颗芯片被集成进售予运营商的系统中时,数据的所有权归谁?”

成功部署 SLM 技术取决于审慎的架构决策、清晰的目标,以及对硬件和软件集成采取灵活的方法。系统架构师不仅要评估技术需求,还必须考虑贯穿硅生命周期的数据安全、数据所有权和分析等更广泛影响。通过优先考虑灵活性、标准化和可扩展性,组织能够从 SLM 中释放真正的价值,将芯片和系统转变为智能、协作的实体,在日益复杂的环境中推动创新与可靠性。

主题:芯片|数据|问题|监控器|解决方案|硅生命周期管理