已经是第三次部署这玩意了,怎么还是掉进坑了???
而且每次碰到的坑还不一样(绝)
这边随便记一下
RuntimeError: Library cublasLt is not initialized
原因很简单,没安装cudatoolkit,去英伟达官网给windows装个cuda
无脑Download然后Install就行
conda自带的虚拟环境里的cuda是阉割的,有些模块不能用
NotImplementedError: Cannot copy out of meta tensor; no data!
代码里大概要改成这个样子
model = AutoModel.from_pretrained("E:\Project\GLM3\[Model]chatglm3-6b\chatglm3-6b", trust_remote_code=True, device_map="cuda",empty_init=False)
主要是这个device_map="cuda",empty_init=False
默认的自动检测不够准确,把机子识别成cpu模式了,然后运存不够,直接GG
后面那个好像和从抱脸拉文件有点关系,总之加上就是了
总结
这两个问题应该只会在int4量化下碰到
因为我这边实测就算量化跑不了,直接fp16精度全模型运行也是没问题的
全精度4070占用11.3GB显存,基本要炸了
int4占用5.7G,速度和占用总体还好
真要说的话,学校这边还有4张4090我可以拿来跑模型用,但是不能拿来打游戏的显卡有什么意义呢