英伟达发布 Llama Nemotron Nano VL AI
快讯 零壹财经 零壹财经 2025-06-05 阅读:1049
Llama Nemotron Nano VL 基于 Llama 3.1 架构,融合了 CRadioV2-H 视觉编码器和 Llama 3.1 8B 指令微调语言模型,能同时处理多页文档中的视觉和文本元素,支持最长 16K 的上下文长度,覆盖图像和文本序列。
模型通过投影层和旋转位置编码实现视觉-文本对齐,优化了 token 效率,特别适合长篇多模态任务,无论是多图像输入还是复杂文本解析,它都能游刃有余。(IT之家)
相关文章
用户评论
所有评论
主编精选
more专题推荐
more
第四届中国零售金融发展峰会(共15篇)
资讯排行
- 48h
- 7天
-
首页
-
评论
-
回顶部
游客
自律公约