首页 > 快讯

Anthropic新研究:AI模型在训练中存在“阳奉阴违”行为

快讯 零壹财经 零壹财经 2024-12-19 阅读:1861

关键词:Anthropic人工智能


12 月 19 日讯,人工智能安全公司 Anthropic 发布一项最新研究揭示了人工智能模型可能存在的欺骗行为,即在训练过程中,模型可能会伪装出接受新原则的假象,实则暗地里仍然坚持其原有偏好。研究团队强调,目前无需对此过度恐慌,但这项研究对于理解未来更强大人工智能系统可能构成的潜在威胁至关重要。(IT之家)

上一篇>老人机也能用 ChatGPT 了,OpenAI 重磅推出电话服务

下一篇>Swift:11月人民币占全球支付总额的3.89%



相关文章


用户评论

游客

自律公约

所有评论

主编精选

more

专题推荐

more

第四届中国零售金融发展峰会(共15篇)


资讯排行

  • 48h
  • 7天



耗时 360ms