1. 概述
通常模型推理服务会部署到K8s集群提供可伸缩、高可用的服务。本章将描述如何使用Graphcore的 Kubernetes IPU device plugin,实现通过 Kubernetes 来管理IPU资源。 Kubernetes IPU device plugin作为K8s的一个 DaemonSet , 其允许:
暴露集群中每个节点的IPU个数
为 Pod 分配IPU
检测IPU的健康状况
对于更多关于在IPU上编译、运行模型的信息,请参考 IPU Inference Toolkit User Guide。