Chatglm3部署踩坑记录

2024年3月23日 2条评论 2.01k次阅读 0人点赞晓空

已经是第三次部署这玩意了，怎么还是掉进坑了？？？

而且每次碰到的坑还不一样（绝）

这边随便记一下

RuntimeError: Library cublasLt is not initialized

原因很简单，没安装cudatoolkit，去英伟达官网给windows装个cuda

无脑Download然后Install就行

conda自带的虚拟环境里的cuda是阉割的，有些模块不能用

代码里大概要改成这个样子

model = AutoModel.from_pretrained("E:\Project\GLM3\[Model]chatglm3-6b\chatglm3-6b", trust_remote_code=True, device_map="cuda",empty_init=False)

主要是这个device_map="cuda",empty_init=False

默认的自动检测不够准确，把机子识别成cpu模式了，然后运存不够，直接GG

后面那个好像和从抱脸拉文件有点关系，总之加上就是了

这两个问题应该只会在int4量化下碰到

因为我这边实测就算量化跑不了，直接fp16精度全模型运行也是没问题的

全精度4070占用11.3GB显存，基本要炸了

int4占用5.7G，速度和占用总体还好

如果您的网络和设备条件允许，这里可能会显示来自Google和其他赞助商的广告