IPU Inference Toolkit User Guide
Version: latest
1. 概述
2. IPU推理方案架构
2.1. 模型服务
2.2. Graphcore Poplar软件栈
2.2.1. PopART
2.2.2. PopEF and PopRT Runtime
2.3. IPU推理方案架构
2.3.1. 模型编译
模型导出
选择Batch size
选择精度
模型转换
模型编译
2.3.2. 模型运行
3. 环境准备
3.1. 主机CPU架构
3.2. 主机操作系统
3.3. Docker
3.4. Poplar SDK
3.4.1. 安装Poplar SDK
3.5. 检查IPU硬件
3.6. 安装PopRT
3.6.1. 通过容器安装
3.6.2. 通过pip安装
3.7. 通过容器启动IPU运行环境
3.7.1. gc-docker
3.7.2. 使用docker run启动容器
3.7.3. 容器内查询IPU的状态
4. 模型编译
4.1. ONNX模型
4.1.1. 模型导出
4.1.2. 选择batch size
4.1.3. 选择精度
4.1.4. 模型转换和编译
4.2. TensorFlow模型
4.2.1. 模型导出
4.2.2. 模型转换和编译
4.3. PyTorch模型
4.3.1. 模型导出
4.3.2. 模型转换和编译
5. 模型运行
5.1. 通过PopRT Runtime运行
5.1.1. 环境准备
5.1.2. 通过Python API运行
5.1.3. 通过C++ API运行
5.2. 部署到Trition Inference server
5.2.1. 环境准备
5.2.2. 生成模型的配置
模型名称
Backend
Batching
输入和输出
5.2.3. 启动模型服务
通过gRPC验证服务
通过HTTP验证服务
5.3. 部署到TensorFlow Serving
5.3.1. 环境准备
5.3.2. 生成SavedModel模型
5.3.3. 启动模型服务
开启或关闭batching功能
5.3.4. 通过HTTP验证服务
6. Container release notes
6.1. Triton Inference Server
6.1.1. New features
6.1.2. Bug fixes
6.1.3. Other improvements
6.1.4. Known issues
6.1.5. Compatibility changes
6.2. TensorFlow Serving
6.2.1. New features
6.2.2. Bug fixes
6.2.3. Other improvements
6.2.4. Known issues
6.2.5. Compatibility changes
7. Trademarks & copyright
IPU Inference Toolkit User Guide
IPU Inference Toolkit User Guide
1. 概述
2. IPU推理方案架构
2.1. 模型服务
2.2. Graphcore Poplar软件栈
2.3. IPU推理方案架构
3. 环境准备
3.1. 主机CPU架构
3.2. 主机操作系统
3.3. Docker
3.4. Poplar SDK
3.5. 检查IPU硬件
3.6. 安装PopRT
3.7. 通过容器启动IPU运行环境
4. 模型编译
4.1. ONNX模型
4.2. TensorFlow模型
4.3. PyTorch模型
5. 模型运行
5.1. 通过PopRT Runtime运行
5.2. 部署到Trition Inference server
5.3. 部署到TensorFlow Serving
6. Container release notes
6.1. Triton Inference Server
6.2. TensorFlow Serving
7. Trademarks & copyright
Read the Docs
v: latest