阿里云推大规模视觉语言模型开源,支持中英文多种语言
2023-08-30 17:38:12 来源: 中关村在线
(相关资料图)
阿里云于8月25日推出了大规模视觉语言模型Qwen-VL,该模型已在ModeScope开源。此前,阿里云已经开源了通用模型Qwen-7B和对话模型Qwen-7B-Chat。Qwen-VL是一款支持中英文等多种语言的视觉语言模型,相较于此前的视觉语言模型,除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为448,此前开源的视觉语言模型通常仅支持224分辨率。官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于语言模型的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于GPT-4打分机制的测试集“试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源视觉语言模型最好结果。
标签:
[责任编辑:]
猜你喜欢
- (2023-08-30)攒,多音字 攒的多音字是什么
- (2023-08-30)东京股市继续上扬
- (2023-08-30)太原《如梦晋阳》演出交通指引(自驾+公交+地铁)
- (2023-08-30)新闻出版总署发布2023年进口游戏审批名单:腾讯、网易均上榜
- (2023-08-30)岳云鹏推菜触碰观众底线,《中餐厅》彻底被打脸
- (2023-08-30)全市招商引资推进大会释放强烈信号——乘势攻坚,拼招商永远在路上
- (2023-08-30)外交部:美方无理扣留、盘查、遣返中国留学生,中方对此坚决反对