试了一下用 AutoDL 做训练
我的流程大概是这样的:
充值完成后(用 edu 邮箱还能领不知道有什么用的会员)
3090 大概 1.5/h
4090 大概 2.6/h
选择服务器
建议直接选 4090,看起来性价比比较高
选择镜像
有自带的 pytorch 环境能选,但只有<=1.11&&==2.0 的版本,所以基本上都要选 miniconda 自己配置
本次使用的是
1 | conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch |
通过网盘传输文件
有很多种传输文件的方法,这里我一开始选用的是通过百度网盘的方式,但发现要企业认证才能接入,所以改用阿里云盘
授权后
点击要下载的文件夹即可下载到本地的实例,也能用上传把实例上传到网盘上
又遇到一个神奇的问题:好像不能识别文件夹中的压缩文件?而且下载到实例特别慢
解决方法:直接打包整个文件成 zip,下载就是正常速度了,而且差点忘了 linux 里最好用 zip 格式
然后根据 environment.yaml 配好环境就能开始 coding 了
hugging face 上 ckpt 的问题(也有可能是大文件的问题)
在 autodl 上从 hugging face 上下载 ckpt 似乎有些问题,7.7g 的文件下下来只有几十个 kb,不知道命令哪里有问题
直接本地下载传到网盘上了
保存镜像
如果要把数据从设备(也就是 autodl 说的实例)A 迁移到 B 上,可以把 A 保存为镜像,然后在设备 B 上加载镜像