0%

Coding in AutoDL

试了一下用AutoDL做训练

我的流程大概是这样的:

充值完成后(用edu邮箱还能领不知道有什么用的会员)

3090大概1.5/h

4090大概2.6/h

选择服务器

建议直接选4090,看起来性价比比较高

选择镜像

有自带的pytorch环境能选,但只有<=1.11&&==2.0 的版本,所以基本上都要选miniconda自己配置

本次使用的是

1
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch

通过网盘传输文件

有很多种传输文件的方法,这里我一开始选用的是通过百度网盘的方式,但发现要企业认证才能接入,所以改用阿里云盘

授权后

点击要下载的文件夹即可下载到本地的实例,也能用上传把实例上传到网盘上

又遇到一个神奇的问题:好像不能识别文件夹中的压缩文件?而且下载到实例特别慢

解决方法:直接打包整个文件成zip,下载就是正常速度了,而且差点忘了linux里最好用zip格式

image-20240430164330939

然后根据environment.yaml配好环境就能开始coding了

hugging face上ckpt的问题(也有可能是大文件的问题)

在autodl上从hugging face上下载ckpt似乎有些问题,7.7g的文件下下来只有几十个kb,不知道命令哪里有问题

直接本地下载传到网盘上了

保存镜像

如果要把数据从设备(也就是autodl说的实例)A迁移到B上,可以把A保存为镜像,然后在设备B上加载镜像