1. 概述

Graphcore®拟未的 C600 IPU 处理器卡是一款双插槽、全高的 PCI Express Gen4 卡,包含了拟未支持 FP8 的 MK2 智能处理器 (IPU),旨在加速用于机器智能应用程序的训练和推理。所有其他组件均由行业标准提供商提供。GC-C600是C600 PCIe卡的规范型号。

C600 在运行典型工作负载时的散热设计功耗为 185 瓦,安装在合适的机箱内可实现被动冷却。该卡的最大功率是有上限的,如果需要,可以配置得更高或更低。本节介绍 C600 卡上标签的位置和内容。

该卡上的所有存储都包含在 IPU 中,为处理核心提供极高的带宽。在 IPU 中共有 900MB的处理器内存。

1.1. 标签信息

本节介绍 C600 标签的位置和内容。

当 C600 卡通电时,可以从 SMBus 接口获得 C600 和 IPU 设备标识; 有关详细信息，请参阅 C600 SMBus 接口规范.

1.1.1. 卡标签

在 C600 顶部 (安装 C600 卡时可见) 有一个标签,重复了 C600 卡的 PCB 卡标识信息。

命令行工具 gc-inventory 也可用于查找 C600 卡的 PCB 序列号。

1.1.2. PCB 卡标签

在 C600 卡的底部,金属盖上有一个小切口,显示 PCB 卡识别标签。

请注意, 当卡安装在机箱中时, 此标签不可见。

1.1.3. 反篡改标签

卡的背面有一个防篡改标签。该标签指示 C600 的外壳不得拆下。

请注意, 当卡安装在机箱中时, 此标签不可见。

1.2. 物理规格

C600 卡符合 PCle CEM 双插槽、全高 PCle 卡的规范。对于那些需要将卡连接在一起的系统,需要额外的2.5毫米间隙以支持IPU-Link™卡对卡组件。拟未支持可以根据用户需求, 提供机械模型 (STP 文件)。

1.2.1. 尺寸

Table 1.1 C600 尺寸
卡长度	267 毫米
卡高度	111 毫米
组件高度	到连接的 IPU-Link 连接器的顶部为 113.5 毫米
组件宽度	27.6 毫米
质量	1.27 千克

1.2.2. PCle扩展器支架

根据卡所安装的机箱,有不同类型的 PCle 扩展器支架可用,以确保 C600 安全地安装在 PCle 插槽中。这些支架在 Section 2.2, 用于支持 C600 卡的扩展器支架中有具体描述。

1.3. 电源要求

通过 PCle 边缘连接器上的 3 伏连接和 12 伏电源向 C600 卡供电 (参见 Section 1.3.1, 12 伏辅助电源规格)。电源插座被安装在 PCB 上与安装支架相对的那一端的边缘。

Table 1.2 C600 输入电源规格
连接	电压	指定电流	指定电源	时标
PCle 边缘连接器	12 伏 ± 8%	0 安培	0 瓦	N/A
PCle 边缘连接器	3伏3 ± 9%	1 安培	3.3 瓦	20 毫秒
CPU8 针电源连接器 (辅助)	12 伏 +5% / -8%	16 安培	192 瓦	20 毫秒

Table 1.3 C600 电源管理规格
TDP	185 瓦
功率上限	根据客户实际需求,可调节 12W 的倍数规格,通常为 180 瓦或 192 瓦
功率上限调整分辨率	12 瓦
功率封顶采样时间	1 毫秒

Table 1.4 C600 峰值输入电流规格
参数	峰值电流	时标
PCle 边缘连接器(12 伏)	0 安培	N/A
CPU8 针电源连接器 (辅助, 12 伏) - 默认值	16 安培^**	20 毫秒
CPU8 针电源连接器 (辅助,12 伏) - 绝对极限值	21 安培^**	20 毫秒
CPU8 针电源连接器 (辅助,12 伏)	30 安培	1 毫秒

备注

^** 20 毫秒的平均峰值电流取决于功率上限值。对于预期的工作负荷,应该保持在默认值。在这个值增加的情况下,机箱的功率容量需要相应调整。

1.3.1. 12 伏辅助电源规格

需要一个辅助电源来为 C600 卡提供必要的电源。Fig. 1.1 显示了8针C600 电源插座的引脚分布图。

_images/C600-pinout.png — Fig. 1.1 C600 的 8 针 12 伏连接器引脚分布

Table 1.5 显示了 C600 电源插座的连接汇总。

Table 1.5 C600 的针连接
针 1 - 4	接地
针 5 - 8	12 伏

1.4. 散热要求

当 C600 卡位于一个合适的机箱内时,它是被动冷却的。装有 C600 卡的机箱内的风扇需要提供足够的气流,使卡保持在其最大工作温度阈值以下,每块 C600 卡需要消除 252 瓦的热量, 以实现最大的功率封顶值。

有关气流要求的更多细节,请参见 Section 2.1, 气流要求。

1.4.1. 运行条件

600 在进口温度摄氏 10 度(华氏 50 度)和摄氏 55 度(华氏 131 度)之间运行。最高外部排气温度为摄氏 70 度(华氏 158 度)。相对湿度应保持在5%至90%之间。如果 C600 的元件温度或输入电流超过其最大阈值,则会降低功耗。

1.4.2. 储存条件

C600 可以在摄氏零下 40 度(华氏零下 40 度)和摄氏 70 度(华氏 158 度)之间安全地存放。相对湿度应保持在5%至90%之间。

1.4.3. 温度感应器

C600 电路板上有四个温度感应器:一个在 IPU 设备下面,一个在 PCB 中心,一个在板的两端,用于测量 PCB 的进口和出口温度。这些温度读数每1秒刷新一次。温度读数可在 SMBus 上获得,并通过 PCle 总线用于机箱风扇控制。请参阅 http://smbus.org/specs/上的 SMBus 接口规格文件以了解全部细节。它们也可以通过 PCle 总线获取,以实现用户的可见性。

1.5. 计算

IPU 处理器有 1472 个独立的机器智能内核,可产生高达 560 teraFLOPS 的 FP8 和 280 teraFLOPS的FP16 计算。

1.5.1. IPU 控制器单元 (ICU)

ICU 由 3.3V 伏的 PCle 电源供电。它负责 C600 板上的一些操作,包括电源排序、PCle 配置和热控制。ICU 可以通过 SMBus 和 PCle 总线与主机通信。

1.5.2. 集群联网

C600 卡支持四个 IPU-Links，双向带宽总计为 1 Tbps。 C600 卡可以连接在一起形成一个至多八个 C600 卡的集群，每对卡通过承载 2 个 IPU-Link 的 IPU-Link 电缆连接在一起。这提供了比单独通过 PCIe 总线可用的更高的 IPU-IPU 互连速度。有关详细信息，请参阅第 Section 2.5, IPU-Link 电缆。

1.5.3. 软件支持

C600卡使用 Poplar®SDK 进行编程。Poplar®是拟未用于IPU 的软件栈。它支持领先的机器学习框架,如 PyTorch、TensorFlow 和 ONNX,并包括 Poplar 图编程框架,可用于使用 C++直接对 IPU 进行编程 IPU。关于如何安装所需软件的细节请见 Section 2.6, 安装主机软件。

1.6. 指示灯

C600 卡有六个 LED 指示灯,您可以通过前面的安装支架看到。这些 LED 指示灯显示有关该卡当前状态的诊断信息。

C600 上的 IPU 具有双 8 通道 Gen4 PCIe 接口。主接口（主复合接口）位于通道 [7:0]，次接口（次复合接口）位于通道 [15:8]。

LED #5 显示有关主 PCIe 接口状态的诊断信息，LED #6 显示有关次 PCIe 接口状态的诊断信息。在表 1.6 中，主 PCIe 接口和次 PCIe 接口分别称为主复合接口和次复合接口。

_images/led-indicators.png — Fig. 1.2 C600 的 LED 指示灯

中给出了可用的诊断信息。 Table 1.6.

Table 1.6 C600 的 LED 指示灯诊断信息
LED	颜色	功能
1	绿红	电源运行正常检测到电源故障
2	无红	所有感应器运行正常系统检测到一个或多个系统感应器出现问题
3	无红	温度正常过热情况
4	无红	系统运行正常关键故障
5	绿红蓝	主复合体 (PCle [7:0]) 链接运行正常主复合体 (PCle [7:0]) 未能建立链接连接主复合体(PCle [7:0]) 链接训练正在进行中
6	绿红蓝	次复合接口 (PCIe [15:8]) 链路正常工作次复合接口 (PCIe [15:8]) 无法建立链路连接次复合接口 (PCIe [15:8]) 链路正在训练中

关于 C600 卡的任何问题,您可以联系您的拟未代表或 https://www.graphcore.ai/support。

1.6.1. 开机成功指示

正常运行期间，LED #1、LED #5 和 LED #6 应呈绿色。

所有其他的 LED 应该不亮。

1.7. PCIe 信息

次级系统 ID 0x0102(主接口) 0x1102 (次级接口)

C600 卡的 PCle 信息请见 Table 1.7.

Table 1.7 PCIe 信息
项目	描述
提供商 ID	0x1D95
设备 ID	0x0600
次级提供商 ID	0x1D95
次级系统 ID	0x0102 (主接口)

1.8. 软件

软件 C600 卡由拟未 Poplar®软件开发环境完全支持。拟未 Poplar 软件开发环境是一个完整的端到端软件栈,用于开发、部署和监控拟未 IPU 上的人工智能模型训练和推理,完全支持包括 TensorFlow、Keras、ONNX、Halo、PaddlePaddle、Hugging Face、PyTorch 和 PyTorch Lightning 在内的标准机器学习框架,以及通过 Poplar C++ API对PopLibs访问。请注意,PopLibs、PopTorch、PopART 和 TensorFlow 以及 Keras 在拟未 GitHub 库 https://github.com/graphcore 中以开源形式提供。PopTorch 围绕 PyTorch 程序提供了一个简单的包装器,使程序能够在 IPU 上无缝运行。开发者还可以使用 PopVision™可视化和分析工具来深入了解 IPU 的性能和利用率:图形分析能够详细检查所有处理活动。除了 Poplar 和 PopVision 外,C600 系统还具备对 Docker 容器等行业标准的融合基础设施管理工具以及编排 (使用 Slurm 和 Kubernetes)的软件支持。

_images/poplar-c600.png — Fig. 1.3 C600 软件

Table 1.8 C600 软件
C600 软件
机器学习框架	TensorFlow, Keras, PyTorch, Pytorch Lightning, Hugging Face, PaddlePaddle, Halo, 和 ONNX
部署选项	裸金属 (Linux), 虚拟机(HyperV), 容器(Docker)
拟未通信库(GCL)	IPU 优化的通信和集合库与 Poplar SDK 栈集成在一起
PopVision	可视化和分析工具

如欲查看支持的操作系统、虚拟机和容器选项的完整列表,请访问拟未支持门户 https://www.graphcore.ai/support

1.9. 主要特点

Table 1.9 C600 主要特点
技术规格
PCle 接口	双插槽全高/全长第四代PCIe卡；支持64GB/秒数据传输
处理器	IPU处理器
运行频率	1.5 GHz
热功耗 (TDP)	185 W, 最大功率 252 W
PCle 边缘连接器	12 V 和 3.3 V直流电（DC）
多张 C600 支持	IPU-Link连接线

LED	颜色	功能
1	绿红	电源运行正常检测到电源故障
2	无红	所有感应器运行正常系统检测到一个或多个系统感应器出现问题
3	无红	温度正常过热情况
4	无红	系统运行正常关键故障
5	绿红蓝	主复合体 (PCle [7:0]) 链接运行正常主复合体 (PCle [7:0]) 未能建立链接连接主复合体(PCle [7:0]) 链接训练正在进行中
6	绿红蓝	次复合接口 (PCIe [15:8]) 链路正常工作次复合接口 (PCIe [15:8]) 无法建立链路连接次复合接口 (PCIe [15:8]) 链路正在训练中

Search help