A:InnoGym是由浙江大学团队开发的全球首个专门测试AI创新能力的评估框架。它不仅检查AI能否解决问题,更重要的是评估AI能否想出前人未曾想到的新方法,包含18个来自真实科学竞赛的挑战性任务。
当 Vibe Coding 正在改变代码生成的范式时,斯坦福政治经济学教授 Andrew B. Hall 已经把它进化到了一个新的维度——Vibe Researching。 他利用 CLI 工具 Claude Code,在约一小时内,全自动复现并扩展了他 2020 年发表在 PNAS 上的一篇关于“邮寄投票(Vote-by-Mail)”的经典实证研究。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果