Chatglm3部署踩坑记录

已经是第三次部署这玩意了,怎么还是掉进坑了???

而且每次碰到的坑还不一样(绝)

这边随便记一下

RuntimeError: Library cublasLt is not initialized

原因很简单,没安装cudatoolkit,去英伟达官网给windows装个cuda

无脑Download然后Install就行

conda自带的虚拟环境里的cuda是阉割的,有些模块不能用

NotImplementedError: Cannot copy out of meta tensor; no data!

代码里大概要改成这个样子

model = AutoModel.from_pretrained("E:\Project\GLM3\[Model]chatglm3-6b\chatglm3-6b", trust_remote_code=True, device_map="cuda",empty_init=False)

主要是这个device_map="cuda",empty_init=False

默认的自动检测不够准确,把机子识别成cpu模式了,然后运存不够,直接GG

后面那个好像和从抱脸拉文件有点关系,总之加上就是了

总结

这两个问题应该只会在int4量化下碰到

因为我这边实测就算量化跑不了,直接fp16精度全模型运行也是没问题的

全精度4070占用11.3GB显存,基本要炸了

int4占用5.7G,速度和占用总体还好

点赞
  1. GoodBoyboy说道:
    Google Chrome Android 10
    富哥4070(doge)
    1. 晓空说道:
      Google Chrome Windows 10/11
      这是学校的啊 :lqy_speechless:
      真要说的话,学校这边还有4张4090我可以拿来跑模型用,但是不能拿来打游戏的显卡有什么意义呢 :lqy_canttalk:

发表回复

电子邮件地址不会被公开。必填项已用 * 标注