1. 概述

Graphcore®拟未的 C600 IPU 处理器卡是一款双插槽、全高的 PCI Express Gen4 卡,包含 了拟未支持 FP8 的 MK2 智能处理器 (IPU),旨在加速用于机器智能应用程序的训练和推 理。所有其他组件均由行业标准提供商提供。GC-C600是C600 PCIe卡的规范型号。

C600 在运行典型工作负载时的散热设计功耗为 185 瓦,安装在合适的机箱内可实现被动 冷却。该卡的最大功率是有上限的,如果需要,可以配置得更高或更低。 本节介绍 C600 卡上标签的位置和内容。

该卡上的所有存储都包含在 IPU 中,为处理核心提供极高的带宽。在 IPU 中共有 900MB的 处理器内存。

1.1. 标签信息

本节介绍 C600 标签的位置和内容。

当 C600 卡通电时,可以从 SMBus 接口获得 C600 和 IPU 设备标识; 有关详细信息,请参阅 C600 SMBus 接口规范.

1.1.1. 卡标签

在 C600 顶部 (安装 C600 卡时可见) 有一个标签,重复了 C600 卡的 PCB 卡标识信息。

命令行工具 gc-inventory 也可用于查找 C600 卡的 PCB 序列号。

1.1.2. PCB 卡标签

在 C600 卡的底部,金属盖上有一个小切口,显示 PCB 卡识别标签。

请注意, 当卡安装在机箱中时, 此标签不可见。

1.1.3. 反篡改标签

卡的背面有一个防篡改标签。该标签指示 C600 的外壳不得拆下。

请注意, 当卡安装在机箱中时, 此标签不可见。

1.2. 物理规格

C600 卡符合 PCle CEM 双插槽、全高 PCle 卡的规范。对于那些需要将卡连接在一起的系 统,需要额外的2.5毫米间隙以支持IPU-Link™卡对卡组件。拟未支持 可以根据用户需求, 提供机械模型 (STP 文件)。

1.2.1. 尺寸

Table 1.1 C600 尺寸

卡长度

267 毫米

卡高度

111 毫米

组件高度

到连接的 IPU-Link 连接器的顶部为 113.5 毫米

组件宽度

27.6 毫米

质量

1.27 千克

1.2.2. PCle扩展器支架

根据卡所安装的机箱,有不同类型的 PCle 扩展器支架可用,以确保 C600 安全地安装在 PCle 插槽中。这些支架在 Section 2.2, 用于支持 C600 卡的扩展器支架 中有具体描述。

1.3. 电源要求

通过 PCle 边缘连接器上的 3 伏连接和 12 伏电源向 C600 卡供电 (参见 Section 1.3.1, 12 伏辅 助电源规格)。电源插座被安装在 PCB 上与安装支架相对的那一端的边缘。

Table 1.2 C600 输入电源规格

连接

电压

指定电流

指定电源

时标

PCle 边缘连接器

12 伏 ± 8%

0 安培

0 瓦

N/A

PCle 边缘连接器

3伏3 ± 9%

1 安培

3.3 瓦

20 毫秒

CPU8 针电源连接器 (辅助)

12 伏 +5% / -8%

16 安培

192 瓦

20 毫秒

Table 1.3 C600 电源管理规格

TDP

185 瓦

功率上限

根据客户实际需求,可调节 12W 的倍数规 格,通常为 180 瓦或 192 瓦

功率上限调整分辨率

12 瓦

功率封顶采样时间

1 毫秒

Table 1.4 C600 峰值输入电流规格

参数

峰值电流

时标

PCle 边缘连接器(12 伏)

0 安培

N/A

CPU8 针电源连接器 (辅助, 12 伏) - 默认值

16 安培**

20 毫秒

CPU8 针电源连接器 (辅助,12 伏) - 绝对极限值

21 安培**

20 毫秒

CPU8 针电源连接器 (辅助,12 伏)

30 安培

1 毫秒

备注

** 20 毫秒 的平均峰值电流取决于功率上限值。对于预期的工作负荷,应该保持在默认值。在这个值增加的情况下,机箱的功率容量需要相应调整。

1.3.1. 12 伏辅 助电源规格

需要一个辅助电源来为 C600 卡提供必要的电源。Fig. 1.1 显示了8针C600 电源插座的引 脚分布图。

_images/C600-pinout.png

Fig. 1.1 C600 的 8 针 12 伏连接器引脚分布

Table 1.5 显示了 C600 电源插座的连接汇总。

Table 1.5 C600 的针连接

针 1 - 4

接地

针 5 - 8

12 伏

1.4. 散热要求

当 C600 卡位于一个合适的机箱内时,它是被动冷却的。装有 C600 卡的机箱内的风扇需 要提供足够的气流,使卡保持在其最大工作温度阈值以下,每块 C600 卡需要消除 252 瓦 的热量, 以实现最大的功率封顶值。

有关气流要求的更多细节,请参见 Section 2.1, 气流要求

1.4.1. 运行条件

600 在进口温度摄氏 10 度(华氏 50 度)和摄氏 55 度(华氏 131 度)之间运行。最高 外部排气温度为摄氏 70 度(华氏 158 度)。相对湿度应保持在5%至90%之间。如果 C600 的元件温度或输入电流超过其最大阈值,则会降低功耗。

1.4.2. 储存条件

C600 可以在摄氏零下 40 度(华氏零下 40 度)和摄氏 70 度(华氏 158 度)之间安全地 存放。相对湿度应保持在5%至90%之间。

1.4.3. 温度感应器

C600 电路板上有四个温度感应器:一个在 IPU 设备下面,一个在 PCB 中心,一个在板的 两端,用于测量 PCB 的进口和出口温度。这些温度读数每1秒刷新一次。 温度读数可在 SMBus 上获得,并通过 PCle 总线用于机箱风扇控制。请参阅 http://smbus.org/specs/上的 SMBus 接口规格文件以了解全部细节。它们也可以通过 PCle 总线获取,以实现用户的可见性。

1.5. 计算

IPU 处理器有 1472 个独立的机器智能内核,可产生高达 560 teraFLOPS 的 FP8 和 280 teraFLOPS的FP16 计算。

1.5.1. IPU 控制器单元 (ICU)

ICU 由 3.3V 伏的 PCle 电源供电。它负责 C600 板上的一些操作,包括电源排序、PCle 配 置和热控制。ICU 可以通过 SMBus 和 PCle 总线与主机通信。

1.5.2. 集群联网

C600 卡支持四个 IPU-Links,双向带宽总计为 1 Tbps。 C600 卡可以连接在一起形成一个至多八个 C600 卡的集群,每对卡通过承载 2 个 IPU-Link 的 IPU-Link 电缆连接在一起。 这提供了比单独通过 PCIe 总线可用的更高的 IPU-IPU 互连速度。 有关详细信息,请参阅第 Section 2.5, IPU-Link 电缆

1.5.3. 软件支持

C600卡使用 Poplar®SDK 进行编程。Poplar®是拟未用于IPU 的软件栈。它支持领先的 机 器学习框架,如 PyTorch、TensorFlow 和 ONNX,并包括 Poplar 图编程框架,可用于使 用 C++直接对 IPU 进行编程 IPU。关于如何安装所需软件的细节请见 Section 2.6, 安装主机软件

1.6. 指示灯

C600 卡有六个 LED 指示灯,您可以通过前面的安装支架看到。这些 LED 指示灯显示有关 该卡当前状态的诊断信息。

C600 上的 IPU 具有双 8 通道 Gen4 PCIe 接口。主接口(主复合接口)位于通道 [7:0],次接口(次复合接口)位于通道 [15:8]。

LED #5 显示有关主 PCIe 接口状态的诊断信息,LED #6 显示有关次 PCIe 接口状态的诊断信息。在表 1.6 中,主 PCIe 接口和次 PCIe 接口分别称为主复合接口和次复合接口。

_images/led-indicators.png

Fig. 1.2 C600 的 LED 指示灯

中给出了可用的诊断信息。 Table 1.6.

Table 1.6 C600 的 LED 指示灯诊断信息

LED

颜色

功能

1

绿

电源运行正常

检测到电源故障

2

所有感应器运行正常

系统检测到一个或多个系统感应器出现问题

3

温度正常

过热情况

4

系统运行正常

关键故障

5

绿

主复合体 (PCle [7:0]) 链接运行正常

主复合体 (PCle [7:0]) 未能建立链接连接

主复合体(PCle [7:0]) 链接训练正在进行中

6

绿

次复合接口 (PCIe [15:8]) 链路正常工作

次复合接口 (PCIe [15:8]) 无法建立链路连接

次复合接口 (PCIe [15:8]) 链路正在训练中

关于 C600 卡的任何问题,您可以联系您的拟未代表或 https://www.graphcore.ai/support

1.6.1. 开机成功指示

正常运行期间,LED #1、LED #5 和 LED #6 应呈绿色。

所有其他的 LED 应该不亮。

1.7. PCIe 信息

次级系统 ID 0x0102(主接口) 0x1102 (次级接口)

C600 卡的 PCle 信息请见 Table 1.7.

Table 1.7 PCIe 信息

项目

描述

提供商 ID

0x1D95

设备 ID

0x0600

次级提供商 ID

0x1D95

次级系统 ID

0x0102 (主接口)

1.8. 软件

软件 C600 卡由拟未 Poplar®软件开发环境完全支持。拟未 Poplar 软件开发环境是一个完整的 端到端软件栈,用于开发、部署和监控拟未 IPU 上的人工智能模型训练和推理,完全支持 包括 TensorFlow、Keras、ONNX、Halo、PaddlePaddle、Hugging Face、PyTorch 和 PyTorch Lightning 在内的标准机器学习框架,以及通过 Poplar C++ API对PopLibs访问。 请注意,PopLibs、PopTorch、PopART 和 TensorFlow 以及 Keras 在拟未 GitHub 库 https://github.com/graphcore 中以开源形式提供。PopTorch 围绕 PyTorch 程序提供了 一个简单的包装器,使程序能够在 IPU 上无缝运行。开发者还可以使用 PopVision™可视 化和分析工具来深入了解 IPU 的性能和利用率:图形分析能够详细检查所有处理活动。 除了 Poplar 和 PopVision 外,C600 系统还具备对 Docker 容器等行业标准的融合基础设 施管理工具以及编排 (使用 Slurm 和 Kubernetes)的软件支持。

_images/poplar-c600.png

Fig. 1.3 C600 软件

Table 1.8 C600 软件

C600 软件

机器学习框架

TensorFlow, Keras, PyTorch, Pytorch Lightning, Hugging Face, PaddlePaddle, Halo, 和 ONNX

部署选项

裸金属 (Linux), 虚拟机(HyperV), 容器(Docker)

拟未通信库(GCL)

IPU 优化的通信和集合库与 Poplar SDK 栈集成在一起

PopVision

可视化和分析工具

如欲查看支持的操作系统、虚拟机和容器选项的完整列表,请访问拟未支持门户 https://www.graphcore.ai/support

1.9. 主要特点

Table 1.9 C600 主要特点

技术规格

PCle 接口

双插槽全高/全长第四代PCIe卡;支持64GB/秒数据传输

处理器

IPU处理器

运行频率

1.5 GHz

热功耗 (TDP)

185 W, 最大功率 252 W

PCle 边缘连接器

12 V 和 3.3 V直流电(DC)

多张 C600 支持

IPU-Link连接线