豆包大模型团队开源多语言代码修复基准 Multi-SWE-bench

快讯零壹财经零壹财经 2025-04-10 阅读：2340

关键词：豆包 大模型 人工智能

4月10日讯，豆包大模型团队正式宣布，首个面向多语言开发环境的代码修复评测基准 Multi-SWE-bench 已开源。该数据集扩展了 SWE-bench 的能力，首次覆盖 Python 之外的 7 种主流编程语言（Java、Go、Rust、C、C++、TypeScript、JavaScript），构建了真实的跨语言代码修复任务。Multi-SWE-bench 包含 1,632 个实例，均来自 GitHub issue，并经过专业开发者审核，具备清晰问题描述与可复现测试环境。其引入的任务难度分级机制，涵盖从简单修改到复杂多文件操作，旨在系统评估大模型的多语言泛化能力，推动自动编程技术向支持多语言、解决真实问题的通用智能体迈进。（DoNews）

上一篇>商汤日日新 SenseNova V6 多模态融合大模型发布

下一篇>OpenAI 更新 ChatGPT