1. 概述

通常模型推理服务会部署到K8s集群提供可伸缩、高可用的服务。本章将描述如何使用Graphcore的 Kubernetes IPU device plugin,实现通过 Kubernetes 来管理IPU资源。 Kubernetes IPU device plugin作为K8s的一个 DaemonSet , 其允许:

  • 暴露集群中每个节点的IPU个数

  • Pod 分配IPU

  • 检测IPU的健康状况

对于更多关于在IPU上编译、运行模型的信息,请参考 IPU Inference Toolkit User Guide