0%

Coding in AutoDL

试了一下用 AutoDL 做训练

我的流程大概是这样的:

充值完成后(用 edu 邮箱还能领不知道有什么用的会员)

3090 大概 1.5/h

4090 大概 2.6/h

选择服务器

建议直接选 4090,看起来性价比比较高

选择镜像

有自带的 pytorch 环境能选,但只有<=1.11&&==2.0 的版本,所以基本上都要选 miniconda 自己配置

本次使用的是

1
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch

通过网盘传输文件

有很多种传输文件的方法,这里我一开始选用的是通过百度网盘的方式,但发现要企业认证才能接入,所以改用阿里云盘

授权后

点击要下载的文件夹即可下载到本地的实例,也能用上传把实例上传到网盘上

又遇到一个神奇的问题:好像不能识别文件夹中的压缩文件?而且下载到实例特别慢

解决方法:直接打包整个文件成 zip,下载就是正常速度了,而且差点忘了 linux 里最好用 zip 格式

image-20240430164330939

然后根据 environment.yaml 配好环境就能开始 coding 了

hugging face 上 ckpt 的问题(也有可能是大文件的问题)

在 autodl 上从 hugging face 上下载 ckpt 似乎有些问题,7.7g 的文件下下来只有几十个 kb,不知道命令哪里有问题

直接本地下载传到网盘上了

保存镜像

如果要把数据从设备(也就是 autodl 说的实例)A 迁移到 B 上,可以把 A 保存为镜像,然后在设备 B 上加载镜像