发送推理请求
对于没有GPU的系统,Triton应该是dll,docker,而不使用通达信市场接口。–在gpus标志的情况下运行,但在其他方面与上述相同。
$ dll,通达信市场接口,docker run --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models
由于未使用–gpus标志,所以GPU不可用,所以Triton将无法加载任何需要GPU的模型配置。
在带GPU的系统上运行
其中
---------------------- --------- --------
| Model | Version | Status |
---------------------- --------- --------
| <model_name> | <v> | READY |
| .. | . | .. |
| .. | . | .. |
---------------------- --------- --------
...
...
...
I1002 21:58:57.891440 62 grpc_server.cc:3914] Started GRPCInferenceService at 0.0.0.0:8001
I1002 21:58:57.893177 62 http_server.cc:2717] Started HTTPService at 0.0.0.0:8000
I1002 21:58:57.935518 62 http_server.cc:2736] Started Metrics Service at 0.0.0.0:8002
使用以下命令通过您刚刚创建的示例模型存储库运行Triton。GPU必须安装NVIDIA容器工具包,Docker才能识别。–gpus=标志表示应为Triton提供一个系统GPU进行推理。
$ docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models
所有模型都应显示“所有模型”READY“状态表明它们已经正确加载。如果模型加载失败,状态将报告失败和失败的原因。如果您的模型没有显示在表中,请检查模型存储库和您的CUDA驱动程序的路径。
创建模型存储库
$ cd docs/examples
$ ./fetch_models.sh
经过优化,Triton可以通过使用GPU提供最佳推理性能,但也可以在只使用CPU的系统上运行。在这两种情况下,您可以使用相同的TritonDocker图像。
Triton推理服务器的启动和维护围绕模型存储库的使用展开。本教程将包括:
使用Triton的就绪端点来验证服务器和模型是否准备好推理。HTTP端点从主机系统中使用curl访问指示服务器状态。
$ curl -v localhost:8000/v2/health/ready
...
< HTTP/1.1 200 OK
< Content-Length: 0
< Content-Type: text/plain
在纯CPU系统中运行
使用dockerpull从NGC获取客户端库和示例图像。
$ docker pull nvcr.io/nvidia/tritonserver:<xx.yy>-py3-sdk
Triton推理服务器可以作为可构建的源代码提供,但安装和运行Triton最简单的方法是使用NVIDIAGPUCloud提供的预构建Docker图像。
验证Triton是否正常运行
如果Triton准备就绪,HTTP要求返回状态200,如果没有准备好,则返回non-200。
创建模型存储库启动Triton发送推理请求
在nvcr.io/nvidia/tritonserver:
$ /workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION /workspace/images/mug.jpg
Request 0, batch size 1
Image "/workspace/images/mug.jpg":
15.346230 (504) = COFFEE MUG
13.224326 (968) = CUP
10.422965 (505) = COFFEEPOT
启动Triton
文章为作者独立观点,不代表股票交易接口观点