平台训练

现在我们可以使用UAI Train训练平台的GPU来训练Mnist模型了。

  • 首先上传训练数据
  • 发起训练任务

向UFile 上传训练数据

向UFile上传数据需要做如下操作:

  • 创建UFile Bucket
  • 下载UFile 操作工具
  • 上传数据

其他UFIle操作请查看UFile使用指南

创建UFile Bucket

我们访问https://console.ucloud.cn/ufile/ufile,点击创建存储空间:

然后选择北京地域创建一个名为uai-demo的存储空间(你可以创建自己命名的存储空间):

下载UFile操作工具

我们直接下载Linux的操作工具,其他工具可以在UFile使用指南查看

$ cd ~

$ wget http://tools.ufile.ucloud.com.cn/filemgr-linux64.tar.gz
$ tar -zxf filemgr-linux64.tar.gz
$ cd filemgr-linux64

之后我们就可以操作UFile了

使用UFile工具上传训练数据

首先需要修改config.cfg设置公私钥:

$ vim config.cfg

public_keyprivate_key修改成你自己账号的公私钥,然后将proxy_host改为www.ufile.cn-north-04.ucloud.cn,因为我们的云主机在北京二可用区D,其他机房的配置可以参考UFile使用指南的说明。

之后我们就可以用如下命令上传数据

./filemgr-linux64 --action mput --bucket uai-demo --dir /data/mnist/data/  --trimpath /data/ --threads 4

这里我们使用mput来上传数据:

  • ufile的目标bucket为 uai-demo
  • 需要上传的数据为 /data/mnist/data/目录下的数据
  • 我们利用trimpath 将上传数据的路径截断,即上传后数据的路径为uai-demo.cn-bj.ufileos.com/mnist/data/

发起训练任务

我们可以在https://console.auto-ai.com.cn/uaitrain/manage界面创建训练任务:

我们首先选择训练节点(1* P40),然后填写好公私钥(用于数据访问授权),具体请您参考账户公私钥获取

之后选择训练相关的参数:

  • 训练镜像(界面会自动关联你的uhub镜像库)
  • 输入数据源(UFile)
  • 输出数据源(UFile)
  • 训练的执行命令:/data/mnist_summary.py --max_step=2000,我们需要给出入口代码和相关训练参数

如何获取输入数据源的地址

我们可以在UFile的界面获取输入数据的ufile地址,操作如下:

1.进入https://console.ucloud.cn/ufile/ufile,点击你的ufile bucket(本例子为uai-demo) 2.点击获取地址

3.截取地址的一部分前缀

发起训练任务

点击确认按钮就可以发起训练。