1. 概述

IPU推理工具包旨在提供低延时高性能的端到端推理解决方案，使用户能够方便快速的部署模型到Graphcore IPU产品上。

本文将涵盖以下内容:

IPU推理方案架构

介绍Graphcore的软件栈，以及模型的编译和运行时架构。
环境准备

介绍IPU所需的硬件和系统，以及如何通过容器启动一个IPU环境并确认其状态正常。
模型编译

以ONNX、TensorFlow和PyTorch的模型为例，阐述如何通过工具将不同框架导出的模型转换为运行在IPU上的PopEF。
模型运行

讲述如何通过PopRT Runtime API运行PopEF，以及如何通过Triton Inference Server和TensorFlow Serving部署PopEF。
NLP 在线搜索解决方案

介绍如何使用IPU推理工具包部署一个在线搜索解决方案。
Kubernetes集群 GPU/IPU 混合部署解决方案

介绍GPU/IPU混合部署的解决方案。

关于在Kubernetes集群中部署的信息，请参考 Kubernetes IPU Device Plugin User Guide 。

备注

关于如何获取本文中使用的容器镜像，请联系 Graphcore Sales 。

Search help