设计原理

UAI Train平台使用CPU/GPU 计算节点来提供AI Inference在线服务任务的基础算力。平台利用Docker容器技术来封装训练任务,并内置Django Server来接受外部HTTP请求

其所设计到的主要技术和产品包括包括:

  1. Docker 容器技术 Docker使用指南
  2. UHub 云知芯 Docker Hub UHub使用指南

UAI Inference执行的概念图

UAI Inference平台在执行在线服务任务分为两块:

  • 初始化(init),即在django server启动时会调用 load_model 来加载AI 模型
  • 执行(service),在外部请求被django server接收后,会调用execute来处理推理请求

UAI Inference 初始化流程

UAI Inference初始化时,Django server会先根据conf.json 加载AI Inference模块,然后调用该模块的load_model来加载模型:

UAI Inference Auto-batching机制

UAI Inference通过data buffer queue的方式将累积的请求batch成一个请求: