VisualGLM-6B是由清华大学开源的一个支持图像、中文和英文的多模态对话语言模型。它基于ChatGLM-6B语言模型,通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。
VisualGLM-6B具有以下特点:
支持图像、中文和英文的多模态对话基于ChatGLM-6B,具有62亿参数通过BLIP2-Qformer连接视觉模型和语言模型在30M中文和300M英文图文对上进行预训练支持低资源设备部署,INT4量化后最低只需6.3G显存VisualGLM-6B支持以下几种微调方式:
LoRAQLoRAP-tuning微调示例代码:
bash finetune/finetune_visualglm.shVisualGLM-6B作为一个开源的多模态对话模型,为研究者和开发者提供了丰富的学习和应用资源。通过本文的介绍和资源汇总,相信读者可以快速上手使用VisualGLM-6B,并根据自己的需求进行进一步的开发和优化。

Copyright © 2025 AI图片论坛 版权所有. 站点地图