1. 概述
Graphcore®拟未的 C600 IPU 处理器卡是一款双插槽、全高的 PCI Express Gen4 卡,包含 了拟未支持 FP8 的 MK2 智能处理器 (IPU),旨在加速用于机器智能应用程序的训练和推 理。所有其他组件均由行业标准提供商提供。GC-C600是C600 PCIe卡的规范型号。
C600 在运行典型工作负载时的散热设计功耗为 185 瓦,安装在合适的机箱内可实现被动 冷却。该卡的最大功率是有上限的,如果需要,可以配置得更高或更低。 本节介绍 C600 卡上标签的位置和内容。
该卡上的所有存储都包含在 IPU 中,为处理核心提供极高的带宽。在 IPU 中共有 900MB的 处理器内存。
1.1. 标签信息
本节介绍 C600 标签的位置和内容。
当 C600 卡通电时,可以从 SMBus 接口获得 C600 和 IPU 设备标识; 有关详细信息,请参阅 C600 SMBus 接口规范.
1.1.1. 卡标签
在 C600 顶部 (安装 C600 卡时可见) 有一个标签,重复了 C600 卡的 PCB 卡标识信息。
命令行工具 gc-inventory 也可用于查找 C600 卡的 PCB 序列号。
1.1.2. PCB 卡标签
在 C600 卡的底部,金属盖上有一个小切口,显示 PCB 卡识别标签。
请注意, 当卡安装在机箱中时, 此标签不可见。
1.1.3. 反篡改标签
卡的背面有一个防篡改标签。该标签指示 C600 的外壳不得拆下。
请注意, 当卡安装在机箱中时, 此标签不可见。
1.2. 物理规格
C600 卡符合 PCle CEM 双插槽、全高 PCle 卡的规范。对于那些需要将卡连接在一起的系 统,需要额外的2.5毫米间隙以支持IPU-Link™卡对卡组件。拟未支持 可以根据用户需求, 提供机械模型 (STP 文件)。
1.2.1. 尺寸
卡长度 |
267 毫米 |
卡高度 |
111 毫米 |
组件高度 |
到连接的 IPU-Link 连接器的顶部为 113.5 毫米 |
组件宽度 |
27.6 毫米 |
质量 |
1.27 千克 |
1.2.2. PCle扩展器支架
根据卡所安装的机箱,有不同类型的 PCle 扩展器支架可用,以确保 C600 安全地安装在 PCle 插槽中。这些支架在 Section 2.2, 用于支持 C600 卡的扩展器支架 中有具体描述。
1.3. 电源要求
通过 PCle 边缘连接器上的 3 伏连接和 12 伏电源向 C600 卡供电 (参见 Section 1.3.1, 12 伏辅 助电源规格)。电源插座被安装在 PCB 上与安装支架相对的那一端的边缘。
连接 |
电压 |
指定电流 |
指定电源 |
时标 |
PCle 边缘连接器 |
12 伏 ± 8% |
0 安培 |
0 瓦 |
N/A |
PCle 边缘连接器 |
3伏3 ± 9% |
1 安培 |
3.3 瓦 |
20 毫秒 |
CPU8 针电源连接器 (辅助) |
12 伏 +5% / -8% |
16 安培 |
192 瓦 |
20 毫秒 |
TDP |
185 瓦 |
功率上限 |
根据客户实际需求,可调节 12W 的倍数规 格,通常为 180 瓦或 192 瓦 |
功率上限调整分辨率 |
12 瓦 |
功率封顶采样时间 |
1 毫秒 |
参数 |
峰值电流 |
时标 |
PCle 边缘连接器(12 伏) |
0 安培 |
N/A |
CPU8 针电源连接器 (辅助, 12 伏) - 默认值 |
16 安培** |
20 毫秒 |
CPU8 针电源连接器 (辅助,12 伏) - 绝对极限值 |
21 安培** |
20 毫秒 |
CPU8 针电源连接器 (辅助,12 伏) |
30 安培 |
1 毫秒 |
备注
** 20 毫秒 的平均峰值电流取决于功率上限值。对于预期的工作负荷,应该保持在默认值。在这个值增加的情况下,机箱的功率容量需要相应调整。
1.3.1. 12 伏辅 助电源规格
需要一个辅助电源来为 C600 卡提供必要的电源。Fig. 1.1 显示了8针C600 电源插座的引 脚分布图。
Table 1.5 显示了 C600 电源插座的连接汇总。
针 1 - 4 |
接地 |
针 5 - 8 |
12 伏 |
1.4. 散热要求
当 C600 卡位于一个合适的机箱内时,它是被动冷却的。装有 C600 卡的机箱内的风扇需 要提供足够的气流,使卡保持在其最大工作温度阈值以下,每块 C600 卡需要消除 252 瓦 的热量, 以实现最大的功率封顶值。
有关气流要求的更多细节,请参见 Section 2.1, 气流要求。
1.4.1. 运行条件
600 在进口温度摄氏 10 度(华氏 50 度)和摄氏 55 度(华氏 131 度)之间运行。最高 外部排气温度为摄氏 70 度(华氏 158 度)。相对湿度应保持在5%至90%之间。如果 C600 的元件温度或输入电流超过其最大阈值,则会降低功耗。
1.4.2. 储存条件
C600 可以在摄氏零下 40 度(华氏零下 40 度)和摄氏 70 度(华氏 158 度)之间安全地 存放。相对湿度应保持在5%至90%之间。
1.4.3. 温度感应器
C600 电路板上有四个温度感应器:一个在 IPU 设备下面,一个在 PCB 中心,一个在板的 两端,用于测量 PCB 的进口和出口温度。这些温度读数每1秒刷新一次。 温度读数可在 SMBus 上获得,并通过 PCle 总线用于机箱风扇控制。请参阅 http://smbus.org/specs/上的 SMBus 接口规格文件以了解全部细节。它们也可以通过 PCle 总线获取,以实现用户的可见性。
1.5. 计算
IPU 处理器有 1472 个独立的机器智能内核,可产生高达 560 teraFLOPS 的 FP8 和 280 teraFLOPS的FP16 计算。
1.5.1. IPU 控制器单元 (ICU)
ICU 由 3.3V 伏的 PCle 电源供电。它负责 C600 板上的一些操作,包括电源排序、PCle 配 置和热控制。ICU 可以通过 SMBus 和 PCle 总线与主机通信。
1.5.2. 集群联网
C600 卡支持四个 IPU-Links,双向带宽总计为 1 Tbps。 C600 卡可以连接在一起形成一个至多八个 C600 卡的集群,每对卡通过承载 2 个 IPU-Link 的 IPU-Link 电缆连接在一起。 这提供了比单独通过 PCIe 总线可用的更高的 IPU-IPU 互连速度。 有关详细信息,请参阅第 Section 2.5, IPU-Link 电缆。
1.5.3. 软件支持
C600卡使用 Poplar®SDK 进行编程。Poplar®是拟未用于IPU 的软件栈。它支持领先的 机 器学习框架,如 PyTorch、TensorFlow 和 ONNX,并包括 Poplar 图编程框架,可用于使 用 C++直接对 IPU 进行编程 IPU。关于如何安装所需软件的细节请见 Section 2.6, 安装主机软件。
1.6. 指示灯
C600 卡有六个 LED 指示灯,您可以通过前面的安装支架看到。这些 LED 指示灯显示有关 该卡当前状态的诊断信息。
C600 上的 IPU 具有双 8 通道 Gen4 PCIe 接口。主接口(主复合接口)位于通道 [7:0],次接口(次复合接口)位于通道 [15:8]。
LED #5 显示有关主 PCIe 接口状态的诊断信息,LED #6 显示有关次 PCIe 接口状态的诊断信息。在表 1.6 中,主 PCIe 接口和次 PCIe 接口分别称为主复合接口和次复合接口。
中给出了可用的诊断信息。 Table 1.6.
LED |
颜色 |
功能 |
---|---|---|
1 |
绿 红 |
电源运行正常 检测到电源故障 |
2 |
无 红 |
所有感应器运行正常 系统检测到一个或多个系统感应器出现问题 |
3 |
无 红 |
温度正常 过热情况 |
4 |
无 红 |
系统运行正常 关键故障 |
5 |
绿 红 蓝 |
主复合体 (PCle [7:0]) 链接运行正常 主复合体 (PCle [7:0]) 未能建立链接连接 主复合体(PCle [7:0]) 链接训练正在进行中 |
6 |
绿 红 蓝 |
次复合接口 (PCIe [15:8]) 链路正常工作 次复合接口 (PCIe [15:8]) 无法建立链路连接 次复合接口 (PCIe [15:8]) 链路正在训练中 |
关于 C600 卡的任何问题,您可以联系您的拟未代表或 https://www.graphcore.ai/support。
1.6.1. 开机成功指示
正常运行期间,LED #1、LED #5 和 LED #6 应呈绿色。
所有其他的 LED 应该不亮。
1.7. PCIe 信息
次级系统 ID 0x0102(主接口) 0x1102 (次级接口)
C600 卡的 PCle 信息请见 Table 1.7.
项目 |
描述 |
---|---|
提供商 ID |
0x1D95 |
设备 ID |
0x0600 |
次级提供商 ID |
0x1D95 |
次级系统 ID |
0x0102 (主接口) |
1.8. 软件
软件 C600 卡由拟未 Poplar®软件开发环境完全支持。拟未 Poplar 软件开发环境是一个完整的 端到端软件栈,用于开发、部署和监控拟未 IPU 上的人工智能模型训练和推理,完全支持 包括 TensorFlow、Keras、ONNX、Halo、PaddlePaddle、Hugging Face、PyTorch 和 PyTorch Lightning 在内的标准机器学习框架,以及通过 Poplar C++ API对PopLibs访问。 请注意,PopLibs、PopTorch、PopART 和 TensorFlow 以及 Keras 在拟未 GitHub 库 https://github.com/graphcore 中以开源形式提供。PopTorch 围绕 PyTorch 程序提供了 一个简单的包装器,使程序能够在 IPU 上无缝运行。开发者还可以使用 PopVision™可视 化和分析工具来深入了解 IPU 的性能和利用率:图形分析能够详细检查所有处理活动。 除了 Poplar 和 PopVision 外,C600 系统还具备对 Docker 容器等行业标准的融合基础设 施管理工具以及编排 (使用 Slurm 和 Kubernetes)的软件支持。
C600 软件 |
|
---|---|
机器学习框架 |
TensorFlow, Keras, PyTorch, Pytorch Lightning, Hugging Face, PaddlePaddle, Halo, 和 ONNX |
部署选项 |
裸金属 (Linux), 虚拟机(HyperV), 容器(Docker) |
拟未通信库(GCL) |
IPU 优化的通信和集合库与 Poplar SDK 栈集成在一起 |
PopVision |
可视化和分析工具 |
如欲查看支持的操作系统、虚拟机和容器选项的完整列表,请访问拟未支持门户 https://www.graphcore.ai/support
1.9. 主要特点
技术规格 |
|
---|---|
PCle 接口 |
双插槽全高/全长第四代PCIe卡;支持64GB/秒数据传输 |
处理器 |
IPU处理器 |
运行频率 |
1.5 GHz |
热功耗 (TDP) |
185 W, 最大功率 252 W |
PCle 边缘连接器 |
12 V 和 3.3 V直流电(DC) |
多张 C600 支持 |
IPU-Link连接线 |