什么是AI训练服务
AI 训练服务(云知芯 AI Train)是面向AI训练任务的大规模分布式计算平台,基于云知芯性能强大的CPU/GPU云主机集群构建,提供多种配置的高性能计算节点,AI 训练服务提供一站式托管AI训练任务服务,用户在提交AI训练任务后无需担心计算节点调度、训练环境准备、数据上传下载以及容灾等问题。同时,AI 训练服务按照实际计算消耗付费,收费灵活、便捷,用户无需担心资源浪费。
UAI Train训练任务操作流程示意图
UAI Train服务目前包括两种任务类型
1.AI训练任务
AI训练任务过程一共分三大部分,一共七个步骤:
- 训练准备
- 打包训练用Docker镜像,包括打包训练代码,并测试训练代码。(UAI Train平台会提供基础的GPU/CPU Docker镜像)
- 使用UAI Train平台提供的工具将打包好的Docker镜像上传至UHub
- 使用控制台页面或SDK工具将训练用数据上传到云存储产品(如UFile,UFS)指定路径
- 训练任务执行
- 通过UAI Train平台操作界面发起训练任务
- 等待训练结束,此时用户可以通过日志界面或者TensorBoard观察训练进度
- 训练完成
- 通过UAI Train平台操作界面观察训练任务是否结束
- 使用控制台页面或SDK工具从云存储产品(如UFile,UFS)获取训练结果
2.AI交互式训练任务
AI交互式训练任务过程一共分三大部分,一共九个步骤:
- 训练准备
- (非必须)使用控制台页面或SDK工具将训练用数据上传到云存储产品(如UFile,UFS)指定路径
- (非必须)通过交互式训练的保存镜像功能制作自定义镜像
- 训练任务执行
- 通过UAI Train平台操作界面发起AI交互式训练任务
- (非必须)使用Terminal界面自主安装研发需要的外部依赖包,保存镜像生成自定义研发环境镜像
- 运用Jupyter Notebook实现实时开发
- 运用Jupyter Notebook运行调试训练程序生成模型
- 训练完成
- (非必须)通过保存镜像按钮保存当前开发环境到Uhub Docker进行仓库
- 停止交互式训练任务
- 使用控制台页面或SDK工具从云存储产品(如UFile,UFS)获取训练结果
UAI Train架构示意图
主要模块
UAI-Train 包括两个模块:
- 用户态SDK工具包:SDK工具包包含:1)云知芯训练框架SDK代码,包括定义了部分训练平台相关的参数,例如:计算节点GPU个数、输入数据路径、输出数据路径等;2)Docker镜像打包工具,可以协助用户使用云知芯公开的GPU 容器镜像打包自己的训练容器镜像,并上传至UHub。
- UAI Train训练平台:UAI Train训练平台为PaaS训练平台,基于云知芯性能强大的GPU云主机集群构建,可以提供1机1卡P40、1机2卡P40、1机4卡P40等多种GPU计算节点供用户选择。该提供一站式托管AI训练任务服务,UAI Train训练平台将负责处理计算节点调度、训练环境准备、数据上传下载以及容灾等问题。
UAI Train 训练平台使用场景
UAI Train平台是面向AI训练任务的大规模分布式计算平台,在提供充足高性能GPU计算资源的同时,采用按需收费的模式,使用灵活、便捷。UAI训练平台适用于包括视频图像识别、自然语言处理、语音处理等等各类AI训练任务场景。 UAI Train平台在提供高性价比的GPU训练资源的同时,还提供了包括训练任务管理、训练任务容灾、训练日志查询等一系列功能服务。