1. 概述

IPU推理工具包旨在提供低延时高性能的端到端推理解决方案,使用户能够方便快速的部署模型到Graphcore IPU产品上。

本文将涵盖以下内容:

  • IPU推理方案架构

    介绍Graphcore的软件栈,以及模型的编译和运行时架构。

  • 环境准备

    介绍IPU所需的硬件和系统,以及如何通过容器启动一个IPU环境并确认其状态正常。

  • 模型编译

    以ONNX、TensorFlow和PyTorch的模型为例,阐述如何通过工具将不同框架导出的模型转换为运行在IPU上的PopEF。

  • 模型运行

    讲述如何通过PopRT Runtime API运行PopEF,以及如何通过Triton Inference Server和TensorFlow Serving部署PopEF。

  • NLP 在线搜索解决方案

    介绍如何使用IPU推理工具包部署一个在线搜索解决方案。

  • Kubernetes集群 GPU/IPU 混合部署解决方案

    介绍GPU/IPU混合部署的解决方案。

关于在Kubernetes集群中部署的信息,请参考 Kubernetes IPU Device Plugin User Guide

备注

关于如何获取本文中使用的容器镜像,请联系 Graphcore Sales