AI Scientist以机器学习领域顶会NeurIPS发布语言模型类研究为模板,使用大模型Claude 3.5、GPT-4及开源的Deepseek coder和Llama-3.1,各自产生了52个研究思路;在之后的新颖性审查中,少部分研究由于不具备创新性被去除,又有部分研究思路无法通过实验验证(大模型编程能力有限),最终只有不到一半的研究最终完成论文撰写。最后,由大模型驱动的评审智能体自动生成对文稿的审稿意见和打分(表1中Mean Score项)。在成本方面,使用DeepSeek Coder模型生成每篇论文的成本仅需要10美元。
在这项研究中,作者论证了AI评审智能体给论文评审和人类专家针对2022年ICML(机器学习顶会)的评审具有相关性,且AI评审智能体对AI Scientist论文的评分,达到了过往发表在机器学习顶会论文的均值。这似乎说明Al Scientist生成了顶会级的研究。 |