本人参加过一次美国大学生数学建模竞赛,单人独立建模并撰写论文文案(翻译美化是另一位大佬,其实这比赛还是更关注美化论文,图文好看就能得奖,下限靠美化,上限靠建模+美化,编程成分可以比较少),最后是得了M奖(7.9%)。如果你在备赛时有什么疑问 ...
当你听说某个AI模型在数学考试中得了满分时,可能会觉得人工智能的数学能力已经超越人类了。然而真实情况远比这复杂。最近这项来自腾讯和中国人民大学的研究揭示了一个令人深思的现象:当我们用真正的前沿数学研究来测试这些AI时,即便是最先进的模型也会暴露出巨大的能力短板。 研究团队开发了一个名为EternalMath的测试系统,它的特别之处在于能够自动从最新发表的数学论文中提取问题。这就好比给AI出题的老师 ...
以DeepSeek‑R1为例,仅靠强化学习训练,模型在AIME数学推理基准上的pass@1从15.6%提升至 77.9%,充分展示了RL在低数据量条件下即可实现大幅能力跃升,迅速成为后训练赛道的新范式。
腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 ...
顶尖国际模型如GPT、Gemini在专家级数学难题FrontierMath上表现优异,但在真正高难度问题面前仍未满分,显示出推理能力仍有提升空间。与此同时,AI推理能力和强化学习的进步让增长速度几乎翻倍,成本大幅下降,许多模型已能在消费级硬件上运行。
本报记者李相如近期,全球数学界正悄然上演一场变革,几大标志性事件引发学界的持续关注和热议国产大模型DeepSeek-V3.2-Speciale在国际数学奥林匹克竞赛(IMO)、国际信息学奥林匹克竞赛(IOI)等顶级赛事中斩获金牌级成绩;菲尔兹奖得主陶哲轩借升级后的谷歌Gemini。
请媒体朋友们不要报道我们,让我们有更长久的时间可以收集整理数据。我们最怕捧杀了,您让我们保持低调,就是对中文算法圈做了大的贡献! 中文互联网上最古老最神秘(没有之一)的MOP里屋社区于2023.1.1庄重宣布: 在英明神武的猫扑管子带领下,决心发挥社区 ...
这项由中国人民大学高瓴人工智能学院的李家南、李崇轩教授与蚂蚁集团的关健、吴伟等研究人员共同完成的研究,发表于2025年12月的arXiv预印本平台,论文编号为arXiv:2512.13586v1。有兴趣深入了解的读者可以通过该编号查询完整论文。