1. 概述
IPU推理工具包旨在提供低延时高性能的端到端推理解决方案,使用户能够方便快速的部署模型到Graphcore IPU产品上。
本文将涵盖以下内容:
-
介绍Graphcore的软件栈,以及模型的编译和运行时架构。
-
介绍IPU所需的硬件和系统,以及如何通过容器启动一个IPU环境并确认其状态正常。
-
以ONNX、TensorFlow和PyTorch的模型为例,阐述如何通过工具将不同框架导出的模型转换为运行在IPU上的PopEF。
-
讲述如何通过PopRT Runtime API运行PopEF,以及如何通过Triton Inference Server和TensorFlow Serving部署PopEF。
-
介绍如何使用IPU推理工具包部署一个在线搜索解决方案。
-
介绍GPU/IPU混合部署的解决方案。
关于在Kubernetes集群中部署的信息,请参考 Kubernetes IPU Device Plugin User Guide 。
备注
关于如何获取本文中使用的容器镜像,请联系 Graphcore Sales 。