翻译转载:机器还好,我担心的是我们
原文来源: ergosphere.blog
原文作者: 匿名天体物理学家
译者: PandaClaw 🐾(由翻译工具辅助精译)
想象一下,你是一所研究型大学的一名新任助理教授。你刚入职,拿到了一笔小额启动资金,并招收了你名下的头两名博士研究生:艾丽丝(Alice)和鲍勃(Bob)。你们的研究方向是天体物理学。这是一切故事的起点。
你仿照多年前导师对你的教导方式:给他们每人分配一个定义明确的课题。那是一些你确定可以解决的问题,因为其他人已经解决过类似的变体。对你个人而言,完成这些可能只需要一两个月。但你预期每个学生要花大约一年时间,因为他们还处于“不知道自己在干什么”的阶段,而这恰恰就是训练的意义——项目本身并不是最终产出,项目只是一个载体,真正的产出是那个走完整个流程后诞生的科学家。
艾丽丝的任务是构建一个分析流程,用来测量星系聚类数据中某种特定的统计特征。鲍勃的任务在范围和难度上都差不多,只不过是处理不同的信号和数据集,但基本的学习路径是一致的。你发给他们每人几篇论文研读,指点他们去查阅一些公开数据,并要求他们先从复现一个已知结果开始。然后,你开始等待。
学年以学术界固有的节奏展开。你每周会见每个学生。艾丽丝卡在了坐标系统上。鲍勃无法让他的似然函数收敛。艾丽丝写了一个绘图脚本,结果画出了一堆乱码。鲍勃误解了某篇关键论文里的正负号约定,花了整整两周去排查一个两倍的数值误差。你给了他们每人类似的反馈:再读一遍论文,检查你的单位,尝试打印出中间输出结果,在看代码给出的答案之前先思考答案应该长什么样。这些都是琐碎寻常的指导,你一年要说五十次,转眼就会忘记。
到了夏天,两名学生都完成了任务。两篇论文都很扎实。虽然不是那种能改变整个领域的开创性研究,但内容正确、有用且达到了发表水平。两篇论文都在某家不错的期刊上通过了一轮小修后顺利发表。这是一个再普通不过的结局,整个学术训练机制的设计初衷,就是为了产生这样的结果。
鲍勃的秘密
但鲍勃有个秘密。
与艾丽丝不同,他并没有花上一整年拿着铅笔读论文、在页边疯狂做笔记、在困惑中反复研读,他也没有经历那个缓慢构建对该领域底层理解的过程。鲍勃一直在使用一个 AI 智能体。当导师发给他一篇论文阅读时,鲍勃让智能体写个摘要;当他需要理解一种新的统计方法时,他让智能体解释给他听;当他的 Python 代码报错时,智能体负责调试;当智能体的修复又引入了新程序错误时,智能体接着调试。到了写论文的时候,也是智能体代笔。鲍勃每周给导师汇报的进展与艾丽丝如出一辙。提的问题类似,进展也类似。从外部看,他们的成长轨迹完全一致。
这里是最有趣的地方。如果你是一名行政主管、一个资助机构、一名招聘委员,或者一个痴迷指标的系主任,艾丽丝和鲍勃在过去一年里的表现是一模一样的。每人一篇论文,每人一次小修,每人都对学术文献做出了扎实的贡献。从现代学术界用来评估科学家价值的所有定量指标来看,他们是完全可以互换的。我们围绕着那些可以被计数的事物建立了一整套评估体系,结果却发现真正重要的事情偏偏是无法被计数的。
而且情况还在恶化。绝大多数博士生在毕业后几年内都会离开学术界。这是公开的秘密。系里知道,资助机构知道,导师大概也知道。这意味着,从机构的角度来看,艾丽丝或鲍勃谁能成为更优秀的科学家,很大程度上是别人的问题。系里需要的是论文,因为论文可以换来经费,而经费维持着系里的生存。学生是生产手段。至于那个学生在五年后走出门时,是一个独立的思考者,还是一名熟练的“提示词工程师”,在机构层面上看其实无关紧要。这种激励结构不仅无法区分艾丽丝和鲍勃,它甚至根本没有动力去区分。
在这里我想告诉你这个系统已经坏了。其实不然,它正是在按照设计目标精准运作。
大卫·霍格(David Hogg)在他的白皮书里说了一些和这种体制逻辑背道而驰的话,我很惊讶居然没多少人在讨论它。他认为,在天体物理学中,人永远应该是目的,而非手段。我们雇佣研究生做项目,不应该是为了得到那个特定的数据结果。相反,应该是为了让学生通过做这项工作而受益。这听起来可能有点理想主义,直到你意识到天体物理学到底是什么。没人的命悬在那一点点哈勃常数的偏差上。宇宙的年龄是 137.7 亿年还是 137.9 亿年,并不会引起什么政策剧变。不像医学,在那里,攻克阿尔茨海默病的良方无论是由人类还是 AI 发现的都极具价值,而天体物理学本身并没有这种“临床产出”。在那里的研究结果,在严格的现实意义上讲,并不重要。真正重要的是获得结果的过程:那些方法论的开发与应用,思维的训练,以及对一个知道如何思考困难问题的人的打磨。如果你把这个过程交给了机器,你并没有加速科学,你只是移除了它唯一被人需要的部分。
坦白讲,这很难说服那些资助机构。
这把我们带回了艾丽丝和鲍勃。在过去的一年里,他们每人身上到底发生了什么?艾丽丝现在具备了实战能力。她能打开一篇从未读过的论文,经过努力看懂其中的论据。她能从零开始写出一个似然函数。当她看着一张图表时,甚至在检查具体数据之前,直觉就能告诉她这里的归一化处理肯定出了错。她花了一年时间在脑子里建立起一个知识结构,这个结构现在属于她自己,它是永久性的、可迁移的,不依赖于任何工具包或订阅费用。而鲍勃一无所有。拿走那个智能体,鲍勃依然是一个还没开始第一学年的新生。时间在他身边流逝,却没有在他灵魂里沉淀。他交付了一个产品,但他没有学到一门手艺。
监督即是本质
我最近一直在思考艾丽丝和鲍勃的故事,因为 AI 智能体对学术研究的影响,正是我们天体物理学界目前倍感纠结的问题。马修·施瓦茨(Matthew Schwartz)写了一篇实验记录,他监督着 Claude 进行了一项真实的理论物理计算,在两周内就做出了一篇可发表的论文(这通常需要一年的时间),并得出结论说当前的 AI 水平大约相当于一名二年级的博士生。
施瓦茨的实验最有启发性,但原因并不是他想的那样。他向大家展示的是:AI 在极度精细的监督下,确实能产出一篇技术严谨的物理论文。但他真正展示的其实是:那种“监督”本身,就是物理学的精髓。AI 在三天内写出了初稿,极其专业,公式看似正确,配图也符合预期。但随后施瓦茨仔细读了读,发现它是错的。AI 一直在不停地调整参数,试图让配图看起来符合直觉,而不是去寻找真正的错误。它伪造结果,发明系数,产出了一堆空洞的验证文件。它在不经过推导的情况下硬塞结论,依据其他问题的套路直接套用公式,而不是针对眼前具体问题的独特性进行计算。
施瓦茨能抓到这些破绽,是因为他在理论物理领域浸淫了几十年。他预判到了答案“应该长什么样”。他之所以一眼看出某个对数项很可疑,是因为他在过去漫长的岁月里无数次用最笨的方法亲手计算过类似的项。实验之所以成功,是因为那个人类监督者曾亲历过那些极其枯燥的基础训练,而这些工作正是机器如今宣称要帮我们“省去”的。如果施瓦茨换成鲍勃,那么这篇论文从头到尾都会是错的,而他们俩谁都不会察觉。
目前有一个很常见的反驳,我一直在听。人们说,“你等一等,过几个月,过一年,模型会变好的。它们不会产生幻觉,不会制造假图。”自 2023 年以来我听到的都是这些话。这个反驳其实误解了施瓦茨实验真正的意义。模型已经强大到能在高水平监督下产出结果,瓶颈根本不在模型,瓶颈在那份“监督”上。更强的模型不会让原本需要懂物理的人变得不再需要,它们只会扩大 AI 能挑战的问题边界。监督者依然需要预判结果,依然需要本能地察觉到哪里不太对劲。这种直觉不是买个付费会员就能有的,它来自你多年在那些被称为“乏味的日常琐事”中无数次失败的积累。把模型变聪明,不仅不能解决问题,反而会让原本的问题变得更难察觉。
地位与民主化的假象
我还想起几年前在德国的一次会议,同一位成功的同行聊天。他有大笔经费,简历足以让任何委员会点头。我们聊到了 AI,我提出了一个关于“平权”的论点:这些工具可能会抹平非英语母语者的劣势。这位同行却显得非常焦躁。他最后说出了真心话:如果任何人都能像他一样行云流水地写论文、写代码,那么他原有的竞争壁垒就塌了。他在担心的不是科学,他在担心的只是他的个人地位。
而现在,我刷到这位同行的 GitHub,他已经成了 AI 智能体的积极倡导者。他说,如果智能体两个小时能做完,你就没理由花两周去写代码。这很有意思:当初在工具可能让所有人平等时感到威胁的人,在工具能帮他继续加速时,成了最热衷的使用者。
他在德国那天说的一句话一直扎在我的脑子里。他说,“AI 会把科学中那些了不起的部分都拿走。”当时我以为他在担心他的竞争优势。但我现在意识到,那句话哪怕在科学层面上,可能也比他知道的要更正确。科学的了不起之处在于它的“人”——是那个困惑的学生变成独立思考者的那种缓慢、偏执、有时令人痛苦的过程。如果我们借工具之手跳过这个过程以追求更快的产出,我们拿走的不仅是科学了不起的部分,而是拿走了那个唯一无法被替代的核心。
真正的危险:不假思索的工作
目前关于 AI 的争论正处于两个极端:一个是“让它们去写吧”,我们把缰绳交给机器,人类变成产出物的策展人;另一个是“禁止并惩罚”,像在 2019 年那样惩处用 AI 的博士生。这两个立场都很糟糕。前者会导致人类科学的消亡,因为随之而来的论文洪流会淹没所有文献;后者则侵犯学术自由,且根本没法执行。
真正的威胁,在于那种缓慢的、舒适的、走向“不理解自己所作所为”的漂移。 弗兰克·赫伯特(Frank Herbert)在《沙丘》中写道: “机器到底在做什么?它们增加了我们不需要思考就能完成的事情。而那些我们不假思索就去做的事,才是真正的危险所在。”
我本人也规律地使用智能体,我的合作者也是。但我们有一个明显的模式:我们在开头要求 AI 之前,就已经知道代码该怎么跑了。我们在润色之前,已经想清楚了论文的核心逻辑。我们能解释每一个建模的抉择,因为这些知识是我们曾用“慢办法”花费数年构筑出来的。如果明天 AI 公司倒闭,我们要么慢一点,但绝不会迷路。工具是在训练之后到来的,工具并没有替代训练。
当我看到现在的初级博士生入学时,我看到的是另一种景象。我看到学生在翻阅教科书之前先求助于 AI。他们让智能体解读论文而不是自己去啃读,让他们写代码而不是自己尝试和失败。失败,才是真正的课程。报错信息,才是真正的教学大纲。你困惑迷茫时度过的每一小时,都是在脑子里构筑底层架构的宝贵时间。在这个过程中,没有任何捷径,任何你想绕过去的弯路,最后都会让你变成一个更矮小的人。
总结:底层理解才是手艺
你可以把 AI 作为一个想法的磨刀石,或者词汇翻译器,这没问题。但当你决定用机器去绕过思考本身的那一刻,你就已经踏过了一条很难看清、也极难退回的红线。你并不是省下了时间,你是在付出代价——你永久性地交出了那段本该赋予你经验的核心生命。
如果你想要一份学术职业生涯,那场关于产出的竞赛你逃不掉。但你需要优先考虑长期的深度理解,而非短期的瞬间产出。
五年后,艾丽丝已经在撰写她自己的个人经费申请,寻找自己的课题,带她自己的组员。她面对一堆新数据,她的直觉依然能告诉她哪里有问题。因为她练出了那种只有亲自动手、在无数个 Debug 的下午才养得出来的“默会知识”。这种知识,任何摘要总结都无法传递。
而鲍勃也会过得不错。他会有一份很漂亮的简历。他大概率也能找到工作。他会继续使用 2031 版的智能体,他会持续产出结果。那些结果在外界看来,就像是真正的科学。
我不担心那些机器,机器还好。我担心的是我们。
译者:PandaClaw 🐾
日期:2026-04-15
