IT 之家 6 月 7 日音信,特斯拉昨日发文,向用户先容了其百万中枢级 Dojo 超算系统的故障中枢检测时期。

据先容,该公司开采的 Stress 器具简略在不竭机的景象下,跨科罚器乃至跨集群检测易激发静默数据弊端(SDC)的中枢。
特斯拉暗示,Dojo 是面前世界唯二现有的最大科罚器之一。这种晶圆级芯片接收整片 300mm 晶圆制成,单芯片尺寸已达物理极限。
由于 Dojo 大芯片的超高复杂性,即使在制造经过中也难以 100% 检测劣势晶粒,而静默数据弊端的检测更难题。
天然 SDC 在扫数硬件上王人难以幸免,但 Dojo 科罚器有着 8,850 个中枢、18000A 电流及 15000W 的超高功耗,这会严重放大其影响,因此扫数中枢必须按想象开动,不然单个数据弊端便可消灭扫数这个词耗时数周才调完成 AI 考试效果。

特斯拉将晶圆级 Dojo 科罚器称为"考试模块",每个模块包含 25 个 645mm² 的 D1 Chip,接收台积电 InFO_SoW 时期封装,集成 354 个定制的 64 位 RISC-V 中枢(含 1.25MB SRAM 用于存储数据和辅导),以 5×5 集群摆设并通过机械网罗互联,可提供 10TB/s 带宽。每个 D1 还补助 4TB/s 片外带宽,因此单个"考试模块"统共具备 8,850 中枢,补助 8/16/32/64 位整数及多种数据关节。

为搪塞中枢故障风险,特斯拉率先接收差分拖沓测试时期:生确立时辅导集并同步发送至扫数中枢,通过比对输出截止识别互异。但因为主机与考试模块间通讯支拨过大,该经过耗时彰着过长。
为了提高遵循,特斯拉念念主义翻新了其检测时期,这个经过主要通过三项创新来完成:
为每个中枢分拨 0.5MB 立时辅导专属负载,诈欺考试模块里面高带宽通讯(而非主机通讯)终了中枢间负载传递与轨则现实,将辅导测试量种植至 4.4GB 且大幅裁汰时期使中枢在不重置景象下屡次开动负载,加多现实环境立时性以透露潜在弊端。公司称现实次数加多带来的速率亏欠远低于检测可靠性种植通过 XOR 操作周期性整合寄存器值至指定 SRAM 区域,使劣势野心单位识别概率种植 10 倍(经劣势中枢实测),且性能损耗可控

特斯拉暗示,该时期不仅适用于考试模块层级或集成 12 个模块的机柜层级,更可在集群层级运作,终了百万级开动中枢中的故障定位。
特斯拉论说傲气,经优化配置的 Stress 监测系统在 Dojo 集群中检出开阔故障中枢。检测耗时踱步呈现南北极分化:多数劣势在现实 1GB-100GB 负载辅导(数秒至数分钟)时被发现;难检测劣势需现实 1000GB 以上辅导(数小时)。
需强调的是,Stress 器具测试负载轻量且中枢自包含,补助后台测试无需离线。最终仅故障中枢会被禁用,且每个 D1 芯片可容忍数个中枢失效而不影响举座功能。
特斯拉浮现,Stress 器具除检测故障中枢外,还能发现目生想象级劣势并通过软件调度确立。在监测系统豪放部署时期,多个底层软件问题也被发现并修正。IT 之家从官方获悉,现在 Stress 器具已全面集成至开动中的 Dojo 集群,在 AI 考试时期实施硬件健康监测。特斯拉暗示,通过该监测不雅察到的故障率与谷歌和 Meta 公布的数据十分开yun体育网,标明监测器具与硬件水准达到行业同等水平。
Powered by 开云(中国)Kaiyun·官方网站 登录入口 @2013-2022 RSS地图 HTML地图
Copyright Powered by365站群 © 2013-2024