第一个自动做科研的AI出现了，我们能信任机器吗？

显示全部楼层 · 发表于 2024-9-21 20:05:29

AI Scientist以机器学习领域顶会NeurIPS发布语言模型类研究为模板，使用大模型Claude 3.5、GPT-4及开源的Deepseek coder和Llama-3.1，各自产生了52个研究思路；在之后的新颖性审查中，少部分研究由于不具备创新性被去除，又有部分研究思路无法通过实验验证（大模型编程能力有限），最终只有不到一半的研究最终完成论文撰写。最后，由大模型驱动的评审智能体自动生成对文稿的审稿意见和打分（表1中Mean Score项）。在成本方面，使用DeepSeek Coder模型生成每篇论文的成本仅需要10美元。

在这项研究中，作者论证了AI评审智能体给论文评审和人类专家针对2022年ICML（机器学习顶会）的评审具有相关性，且AI评审智能体对AI Scientist论文的评分，达到了过往发表在机器学习顶会论文的均值。这似乎说明Al Scientist生成了顶会级的研究。

第一个自动做科研的AI出现了，我们能信任机器吗？

活跃会员

宣传达人

突出贡献

荣誉管理