试了一下用AutoDL做训练
我的流程大概是这样的:
充值完成后(用edu邮箱还能领不知道有什么用的会员)
3090大概1.5/h
4090大概2.6/h
选择服务器
建议直接选4090,看起来性价比比较高
选择镜像
有自带的pytorch环境能选,但只有<=1.11&&==2.0 的版本,所以基本上都要选miniconda自己配置
本次使用的是
1 | conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch |
通过网盘传输文件
有很多种传输文件的方法,这里我一开始选用的是通过百度网盘的方式,但发现要企业认证才能接入,所以改用阿里云盘
授权后
点击要下载的文件夹即可下载到本地的实例,也能用上传把实例上传到网盘上
又遇到一个神奇的问题:好像不能识别文件夹中的压缩文件?而且下载到实例特别慢
解决方法:直接打包整个文件成zip,下载就是正常速度了,而且差点忘了linux里最好用zip格式
然后根据environment.yaml配好环境就能开始coding了
hugging face上ckpt的问题(也有可能是大文件的问题)
在autodl上从hugging face上下载ckpt似乎有些问题,7.7g的文件下下来只有几十个kb,不知道命令哪里有问题
直接本地下载传到网盘上了
保存镜像
如果要把数据从设备(也就是autodl说的实例)A迁移到B上,可以把A保存为镜像,然后在设备B上加载镜像