首页 > 快讯

加州大学研究人员开发视觉语言模型BLIVA,以更好地处理包含文本的图像

快讯 零壹财经 零壹财经 2023-08-28 阅读:809

关键词:语言模型BLIVA


8月28日讯,加州大学圣地亚哥分校的研究人员开发了一种视觉语言模型BLIVA,旨在更好地处理包含文本的图像。视觉语言模型(VLM)通过合并视觉理解功能来扩展大型语言模型(LLM),以回答有关图像的问题。据悉,BLIVA结合了两种互补的视觉嵌入类型:一种是Salesforce InstructBLIP提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受Microsoft LLaVA启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。(站长之家)

上一篇>威星智能参设数字科技公司,经营范围含AI软件开发

下一篇>快手首次发布汽车行业品效运解决方案,推出首个汽车行业垂直模型



相关文章


用户评论

游客

自律公约

所有评论

主编精选

more

专题推荐

more

第四届中国零售金融发展峰会(共15篇)


资讯排行

  • 48h
  • 7天



耗时 208ms