加州大学研究人员开发视觉语言模型BLIVA，以更好地处理包含文本的图像

快讯零壹财经零壹财经 2023-08-28 阅读：1227

关键词：语言模型 BLIVA

8月28日讯，加州大学圣地亚哥分校的研究人员开发了一种视觉语言模型BLIVA，旨在更好地处理包含文本的图像。视觉语言模型（VLM）通过合并视觉理解功能来扩展大型语言模型(LLM)，以回答有关图像的问题。据悉，BLIVA结合了两种互补的视觉嵌入类型：一种是Salesforce InstructBLIP提取的学习查询嵌入，用于关注与文本输入相关的图像区域；另一种是受Microsoft LLaVA启发提取的编码修补嵌入，直接从完整图像的原始像素修补中获得。（站长之家）

上一篇>威星智能参设数字科技公司，经营范围含AI软件开发

下一篇>快手首次发布汽车行业品效运解决方案，推出首个汽车行业垂直模型