牛牛app 拒却DeepSeek的清华学霸, 怎样拿抓OpenAI的最新大模子?

百人牛牛 /

你的位置：牛牛游戏官方网站 > 百人牛牛 > 牛牛app 拒却DeepSeek的清华学霸, 怎样拿抓OpenAI的最新大模子?

发布日期：2026-01-26 23:32 点击次数：63

牛牛app 拒却DeepSeek的清华学霸，怎样拿抓OpenAI的最新大模子?

智东西

作家江宇

智东西1月20日报谈，ChatGPT背后的一位中国工程师——OpenAI中枢孝顺者翁家翌，日前在AI播客WhynotTVPodcast秉承专访，他初次细密叙述了我方从清华少年到OpenAIinfra主干的经历。

▲图源自翁家翌GitHub主页

作为强化学习与后磨练（Post-Training）系统的要害工程师，翁家翌深度参与了GPT-3.5、GPT-4、GPT-5等中枢模子的磨练，其搭建的infra系统已成为OpenAI里面大模子磨练与迭代的基础底座，亦然ChatGPT连接进化的要害辅助。

在这场长达两个多小时的对谈中，翁家翌败露了OpenAI里面Post-Training系统的构建逻辑，也阐扬注解了OpenAI为何能连接产出爆款模子。

他还分享了他对AGI界说、OpenAI不“open”品评以及里面东谈主才流动加重等气象的第一手不雅察。

濒临DeepSeek、TikTok、英伟达、谷歌等科技巨头抛来的橄榄枝，他为何最终采用了OpenAI？

谈及职业标的，他又为何自称“卖铲子里最面向客户的那位”，独立下方针“我要最大化我在OpenAIBlog上出现的次数”？

这场对谈，给出了谜底。

一、“卖铲子”到主导Post-Training，他是OpenAI模子背后的基础构建者

在OpenAI里面，简直每一个大型模子的发布名单里，都能看到翁家翌的名字，他主导搭建了OpenAI强化学习后磨练（Post-Training）阶段的中枢基础设施。

“每发一个大的release，每发一个大的模子，我的名字就得放上去。”他说，“因为大家都在用通盘Post-Traininginfra去磨练RHF的模子。”

他说我方“是卖铲子里最面向客户的那位”，因为强化学习模块处在通盘基础设施栈的最尖端。他还给我方的职业生涯设定过一个缱绻：“我要最大化我在OpenAIBlog上出现的次数。”

濒临年青东谈主，他的建议仍是：连接参预工程确立，而不是学术询查。他不护讳地说：“永恒来看，我照旧觉顺应代学术界应该要被重构。”在他看来，要是方针是进入工业界，最报复的是匹配的确的就业需求，“AILab最缺的其实即是Infra东谈主才，infra是个无底洞。”

学术界询查每每陷在一些逆境里，如Atari、MoJoCo等任务上过度拟合，并不可调节为现实问题的科罚智商。他谈及，“我在2022年8月就果断到这个问题，是以慢慢住手了天授的征战，转向在OpenAI里面构建更有意念念的RLInfra。”

而在OpenAI内，他目睹了一系列“半恐怕半势必”的变革。加入之初，他参与的即是WebGPT后续神志，通过强化学习让模子更好地与用户交互。他负责构建的RL磨练系统在ChatGPT爆发式上线之前，已成为公司里面主力使用的infra之一。

发布本日，OpenAI服务器数次被挤爆，他姿色这种“自愿走漏的需求”就像我方作念tuixueonline时遭遇的情形，“阐扬这如实是一个值得参预元气心灵的标的”。

被问到OpenAI为何能作念出如斯爆款，翁家翌归结于两个要素：一是单元时候迭代遵循饱和高，二是教唆层信得过懂本领。

OpenAI在引入了几位前Google工程负责东谈主之后（如BarretZoph、LiamFedus），团队开动系统性擢升工程遵循，单元时候的迭代次数和奏遵循是正比的。

他强调，“RL本质上即是trial-and-error（试错）。你试得越快越多，奏效就越近。”

OpenAI的教唆层也保持对细节的强眷注。GregBrockman（合股独创东谈主兼总裁）简直参与过公司整个基础设施模块，而SamAltman（合股独创东谈主兼CEO）则通过询查助理实时了解公司里面进展。他认为这种本领细节的明锐性和坎坷信息流通恰是OpenAI立异连接阻挡的原因。

翁家翌称，“管公司就像管代码库，一朝不一致，通盘系统就会像组装的东谈主类，身子动了，脚没动。”

二、他为ChatGPT模子搭建后磨练系统，也在重构下一代Infra

ChatGPT3.5老成发布之前，OpenAI里面其实已开动在GPT-4上考证强化学习后磨练（RLHF）历程的可行性。

翁家翌回忆，那时他负责的恰是RLHF磨练Pipeline的举座搭建：旧的infra是跑不动的，我在新infra上调通了初版，先在4上作念通，再迁回3.5。这套Post-Training系统随后被用于通盘ChatGPT系列模子的磨练中。

这并不是一条“拿来即用”的活水线。他谈及，OpenAI里面并莫得现成可复用的RLHF基线，好多要害历程都需要重新构建。

信得过的挑战，是模子效果的讨论圭表并不清亮。“你磨练出好多个checkpoint（查验点），但你不知谈哪个是的确更好。”用东谈主类反馈奖励评估时，模子可能一开动奖励信号很高，之后却因过度拟合（hacking）而性能下落。

最终，团队只可依赖“human-in-the-loop（东谈主机协同）”的评估历程，即让里面职工亲自交互测试、打分投票，选出效果最好的版块。

从本领结构上看，这套Post-Training系统的难度远高于他曾经征战的“天授”框架。toytask（考证算法的小规效法真环境）的瓶颈在环境，而大模子的瓶颈在模子自身。

环境是一个Prompt，筹画只消几微秒，但模子磨练和采样则是几百以致上千秒。系统工程的复杂性在于吞吐与推广的均衡，以及对GPU资源的极限压榨。

而他恰是阿谁站在强化学习、系统工程与谎话语模子交叉点的东谈主。他不仅要懂RL自身的逻辑，也得勾通分散式系统、话语模子的推理形势以及底层架构。

就业强度一度让他因头痛被送进急诊。“基本是早上醒来开动debug，写到晚上睡眠，一周六天。”自那以后，他强制我方每周跑两次3000米，规复膂力。翁家翌回忆称，“我之前在清华的时候，上体育课是即是3000米不足格，然后皆备不会跑3000米的。”

同期，翁家翌也正在参与OpenAI下一代RLInfra的重构就业。“旧架构曾经三年多了，堆积的问题其实曾经好多了。”OpenAI要推倒重来，方针是计帐本领债，匡助询查员以更高迭代遵循鼓吹实。

三、他在福建省队拿下“独逐一块铜牌”，叩开清华大门

濒临“你小时候是个什么样的小孩”的问题，翁家翌从奥数讲起。他在数学上展现出超常的直观智商，每每别东谈主还在筹画时他就曾经写罢了谜底。

尽管解题速率快，他却并不认为我方是学得快的东谈主，反而认为我方在勾通新学问时老是比别东谈主慢，需要付出两到三倍的时候。同期，他也具备一种策略果断：既然慢，就要提前学。

他在初中就主动找数学进修问高中课程内容，初二就完成了大部分高中数学学习，初三开动学微积分。翁家翌坦言，“我想投资我方的明天。”

进入高中后，他因为升学压力开动参加信息学竞赛OI（OlympiadinInformatics），但愿以此作为进入顶尖大学的旅途。他说，对于非北京的学生而言，径直考入清华北大“简直难如登天”。

他曾在数学竞赛上小有收获，但因为学校资源有限、我方准备不充分，最终采用消除数学竞赛，转而专注于OI。

他在福建省内的采用中一齐拼到省队，在高二那年凭借一谈最小二分袒护题得到了全场最高分，胜利拿到清华“降60分”收用经历。但他也坦言，这是一次“险胜”：“那年福建省队唯有一个铜牌，即是我。”

而这一齐的磨练，也塑造了他的民俗和念念维形势。他回忆高三备考时间仍“暗暗写代码”，以致在莫得编译器的iPad上径直键盘敲代码，这么的经历磨练了我方对要道结构的完满剖析与快速定位bug的智商。

他尤其千里迷于“常数优化”这种在算法竞赛中优化时候和代码长度的工程挑战，尽管他说这可能“没什么用”，但“的确很专门念念”。他总结说，OI让他果断到，“我的确可以从里面取得痛快”。

四、他在清华开源功课、修校园网Bug，画虎类狗走进了强化学习

进入高校后，要是要说清华生活里最“出圈”的事，是翁家翌给把整个的功课都开源了。

他网罗了前几届流传下来的“上古功课”和课程材料，在征得无版权部分的说明后，统共上传到了GitHub。他说，在清华，信息差每每被动作一种糊口资源，但“我认为每个东谈主都应该对等地领有这些信息”。

他笑称，“松懈咱们抓一个筹画机的学弟，问问你认不显露捐楼的东谈主，哪怕他把名字放在楼上头，你认不显露他？不显露。但你们显露我，因为毕竟大家都看我功课活的。”他还玩笑说，“比捐楼还有用。”

除了“火遍校园”的功课库，翁家翌在大二也开启了科研之路。他画虎类狗报了清华筹画机系的“学术新兴规划”。那时他对科研标的还一无所知，仅仅浑沌认为“图像的东西挺专门念念”，于是盲选了强化学习，扫尾本以为是搞图像的，其后发现其实是打游戏的。

他其实一直对多个标的有浓厚兴味。除了AI，他也心爱图形学和聚集安全。在大学时，他曾和学长一皆发现并诞生了清华网的缝隙，使得本应收费十元的收获单可以免费以致一分钱下载。他修好Bug之后，还反馈给了教务部门。

图形学一度是他的最爱。他在图形学课程中参预了大都时候与厚谊，完成了一个简直莫得东谈主敢尝试的“16K高清图渲染”大功课，并发明了一种加快迭代顾问的新算法，最终拿到了全班仅有的两个A+之一。

但最终，他照旧消除了图形学。“搞科研不可脚踏两条船”，他作念了采用，采用了陆续走强化学习的路。

五、那些看似“折腾”的科研尝试，成了他走向OpenAI的“前传”

自此，翁家翌开启了他的第一个科研神志：在一个上世纪90年代的游戏中磨练神经聚集，让智能体在固定舆图里完成从出身点到特别的任务，包括杀怪、捡血包、避障、通关。

最终，他用强化学习步骤拿下冠军。

尽管扫尾可以，他却坦言并不享受通盘过程。“这个环境太单一了，要豪恣地用手段谛视磨练崩掉。即使不崩，你也不知谈怎样调参材干保持。”他说，“这种嗅觉就像‘真金不怕火丹’，这比CV（筹画机视觉）调参难十倍、一百倍，全靠heuristics（启发式步骤）。”

也正因此，他在大四有果断地将重点转向器用层面，尝试搭建一套面向强化学习的袖珍基础设施库。“我特殊擅长作念软件工程的事，可以重构代码、优化用户体验。”他说，“但至于怎样调，那不是我想碰的东西。”

大三暑假，他曾前去蒙特利尔的Mila询查所通常实习。彼时他投出大都套磁信却迟迟莫得文书，最终在清华导师的匡助下，才谋划上实习契机。他回忆，那年是2019年夏天，正好是Mila独创东谈主、内容询查所负责东谈主YoshuaBengio荣获图灵奖的几个月后，“好在我是提前谋划的，否则预计就进不去了。”尽管进入的是Bengio所在的实验室，但他径直奴隶的是一位Postdoc，任务是尝试作念一个肖似MoE（夹杂巨匠模子）的神志。

那是他第一次战斗Transformer和话语建模。他花了很永劫候上手，最终也仅仅“撮了一个东西出来”，没什么效果。他回忆：“要让这种东西work，最初得有算力、有工程智商，还要能scaleup。那时就我一个东谈主几块卡，哪怕标的对，也搞不出来。”

“NLP的任务太分散了。”他也不雅察到，那时好多东谈主在尝试把RL用于磨练话语模子，但Transformer容易在强化学习中坍塌，没东谈主知谈怎样让它不崩。

其后东谈主们才发现，要让它work，环境必须“纯”，比如纯文本输入。

他坦言，那时对这些标的并莫得清亮剖析，只认为处处受限。“算力不够，剖析也不够，哪怕有今天的勾通，那时照旧作念不出来。”

大三暑假通常归来后，翁家翌开动准备放洋深造的肯求。但那段时候并不胜利。他坦言，情景其实“不太好”。

眼看身边的同学纷纷进入CMU、Stanford等名校实验室，发出ICLR、NeurIPS等会论说文，而我方“什么都莫得”，落差感袭来。“那时的话，我如实是有少许失望的，其实也花了一段时候来调治我方。后头认为我一直以来应该都是想作念一些让我方卓尔不群的事情。”

最终，他只肯求上了硕士。“那时如实有些失意”，他说在清华，哪怕是海外的PhD和Master，也会被视作天差地远。

翁家翌坦言，牛牛“我一直认为，GPA不是独一的评价缱绻。你得创造我方的评价体系。”他援用导师的圭表：“筹画机系的三大缱绻：论文、比赛、GitHub三位数以上的Star。”这句话影响了他很久，也让他果断到，除了刷收获，还有好多“可见的价值”能让一个学生被天下看到。

本科时间，他戮力在“尽可能少花时候”的前提下保持收获刚好够用，“够用就行，多一分都不想花时候。”他会在期末前筹画现时的GPA，“比如87分是B+，那我就很陶然了。”

不外，濒临放洋这个采用，他也并非皆备零丁于大环境以外。那是在2019年12月，他拿到offer时正巧疫情。

六、他用两个神志“作念慈善”：天授与tuixueonline，一炮而红

在肯求季与疫情交叠的那段时候，翁家翌作念了两个神志，一个叫“天授”，一个是“tuixueonline”。他姿色这两个神志都不是功利性的。

“我不想发paper，认为莫得意念念。”翁家翌坦言。对他来说，多一篇少一篇论文并莫得意念念。“我肯求曾经够用了，比赛我也有了，GitHub三位数star也拼集算有。我更想作念一个正经八百的、能被信得过用起来的神志。”

“天授”的起先，是不想再亏蚀时候“真金不怕火丹”。2019年底，他果断到强化学习（RL）限制的问题不在于算法自身，而在于实验平台。

他看了那时最主流的RLlib源代码，发现抽象相当复杂，几十万行代码简直无法动手，干脆推倒重来。于是他在2020年春节假期开动自写一套RL实验平台，初版两周就完成了。

不同于RLlib的“沦落”，天授从设计发轫就追求极致的一致性（consistency）。翁家翌认为，天授“火”的中枢在于信得过收拢了科研用户的需求：一套浅近、好改、踏实的框架。

另一个神志“tuixueonline”，则源自切身需求。他急需一个实时爬虫器用来查询签证预约情景。“于是，我就手撸了一个轻量爬虫，否则没观点。”他说。同期，翁家翌也认为好多东谈主应该有这个需求，是以就开源了。

这个神志飞速传播，一开动就有一百多万点击，当今积聚曾经破千万。天然最终因为好意思领馆升级系统而失效，他也没再阐扬，但这个“短寿神志”完成了我方的就业。

他把这两个神志都称作“作念慈善”。“皆备nonprofit（非盈利），这种慈善神志让我嗅觉特殊得意过。”

当被问及这种“对impact（影响力）的追求”是何时萌芽的，他回忆起高三时一个“灵光一现”的想法：“要是东谈主生是场游戏，结算分数即是身后还有些许东谈主紧记你的名字。”

翁家翌称，“我认为，你不可能对整个东谈主都好，这个是很难作念到的事情。可是，我可以尝试力所能及地对我身边的东谈主好，作念一些对大家有意念念的事。”

七、加入OpenAI之前，他已澈底想了了：要工程，不要真金不怕火丹

2020年，翁家翌资料开动了CMU的硕士课程，因疫情一年都在家上网课。也恰是在这段时期，他开动准备找就业。他一开动投了18家公司，仅收到Google和AutoML（陈天奇团队）的offer。“我不想去Google，在大厂当螺丝钉，然后作念一些我方不是那么心爱的事儿。”

在此之后，他陆续送达并陆续拿到更多公司offer，包括幻方量化、英伟达、TikTok，以及FacebookAIResearch（FAIR），其中幻方彼时正在筹建AILab（其后成为DeepSeek）。

他坦言，要是莫得其他采用，可能就会加入幻方作念强化学习infra。但最终，他采用了OpenAI。

这时距OpenAI尚未进入大家视线，ChatGPT时刻还未驾临。

他作念出这个采用，更多是出于对强化学习和系统智商的认同。“那时OpenAI和DeepMind是强化学习作念得最好的两个lab。”他想体验“天下最前沿的research是怎样作念的”，而不是留在几个PhD手搓的小作坊式科研环境里。他想学的是工业级科研的步骤论。

他最终进入了OpenAI的强化学习组，由JohnSchulman（OpenAI合股独创东谈主之一）亲自招入。“是他亲自口试的我。我很戴德他给了我契机。他去职那天，我愁肠了一通盘下昼，把电脑都关了。”

口试中，JohnSchulman只给了两个东谈主统一谈工程题目，一个是翁家翌，另一个是Codex神志的要害成员AndreyMishchenko。“那是一谈端到端的题，很盛开，他给了我3小时，我两个小时就写罢了，现场还修好了一个bug。”

他猜度，John敬重的是他的工程智商，“Schulman说我的GitHub主页很‘漂亮’，他应该也认同我这个评价体系。”

谈及是否接头过读PhD，翁家翌说从未厚爱想过。“要是想进工业界，读PhD其实是在亏蚀人命。”他说：“你皆备可以以master为跳板，然其后凑够PhD进工业界的圭表。能够让对方挑选master的你，而不是另外一个PhD。我认为是想了了相反化，这个是很要害的。”

PhD的磨练是让你擅长讲故事、写paper、绘制，而工业界要的是快速迭代和系统正确性。他说，我方的一位OpenAI共事曾经是强化学习标的的PhD，其后征战了一个很出名的RL框架。这位共事总结过一句话，让他印象深切：“教一个researcher怎样作念好engineering，比教一个engineer怎样作念好research资料多。”

在翁家翌看来，询查的价值在于考证，而考证的要害是infrastructure。只消基础系统正确、超参合理、迭代遵循高，就能快速筛选出有用想法。而“ideaischeap”，信得过稀缺的是考证的遵循和质地。

“每家infrastructure都有不同进度的bug，谁修的bug多，谁的模子性能就越好。”他刀切斧砍地说，我方没兴味再作念调参式的询查了，“我更景色卖铲子。”

翁家翌的想法是：把infra地基打好，让别东谈主去玩，让别东谈主去发paper，也许还能带上挂名。

八、OpenAI还“Open”吗？从AGI界说到组织急躁，翁家翌给出谜底

在翁家翌看来，“Agent”和“强化学习的post-training”之间莫得本质判袂。“它们本质上是一个东西，仅仅中间多了几步交互。”他认为，在本贯通径上，环境变化是主要别离，但并不组成新挑战。

谈及AGI的界说，他并不认同有斡旋圭表。“OpenAI里面你抓15个东谈主，可能有20种界说AGI的步骤。”他我方的界说是：“要是它能完成80%、90%我认为有意念念的任务，那它可能即是是AGI了。”

而现时他平日负责的代码上，尚无法省心交给模子修改。翁家翌称，“AIinfra的数据集袒护极低，成本太高了，目下还波及不到这块。”

在被问及是否担忧我方被AI取代时，他认为每个东谈主每每会过度响应，“但现实上不会这么的，它是个很慢的、规律渐进的过程。”

翁家翌自称青睐开源，但也特殊了了这背后的衡量。“你没法径直把最好的模子开源，因为公司要糊口。”开源与公司糊口之间是不可幸免的采用，尤其在资源密集型的模子研发阶段，必须保险成本输血与营业可连接。

在他看来，OpenAI的“Open”政策并不料味着对整个同业盛开，而是尽可能以低门槛的形势让芜俚东谈主用上弘大器用。“比如ChatGPT有免费版块，还有语音风光体验，这么可能是更故意于‘造福全东谈主类’，而不是径直开源。你给出裸的模子权重，芜俚东谈主也不知谈怎样用。”

对于外界对于“OpenAI已不Open”的品评，他文书：表面上可以作念到开源和社区反馈，但现实很难。你一开源，别东谈主就坐窝闭源压你，导致你融不到钱，没法陆续实验。

他也坦言，要是公司资源不受限，“我天然会很痛快性开源RLInfra团队这两三年的遵循。

被问到OpenAI终了AGI的最大挑战，他用一个词空洞：“践诺。”在他看来，“只消组织能在正确方进取踏实践诺，就饱和了。”他坦言，“就比如说差点倒闭那次，只消别再那样就好。”

对于SamAltman那场风云，他回忆称：“董事会对Sam的不信任投票，把他赶了出去。”但底层职工的响应是“惶恐”，因为对他们来说，董事会之前对里面简直莫得透明度，“咱们也不知谈这个决议是怎样作念的”。

他还提到，OpenAI最终辅助Sam纪念，是因为“纯本领出身的东谈主并不一定能撑起通盘AI公司”。“你需要一个能搞钱、搞算力、搞资源的东谈主，不是唯有很好的询查劝诫就行。”

他将Sam抽象成一个“identity（精神标志）”，并说：“要是你试图用AI来替代这个identity，别东谈主对它的认同就会缺失。”

他并不护讳团队流失的问题。对于东谈主才流动，他的气魄是：“一个健康的组织，整个东谈主都是可以被替代的。”只消有造血智商，培养新东谈主，OpenAI就能连接运转。

但他也承认，OpenAI并非在所相关键缱绻上都处于全球卓越，比如在infra迭代速率上。

“比如DeepSeek那波宣称迭代很快，这如实让里面好多东谈主警悟。”他提到，这亦然重构一版Infra的原因，Infra的迭代是OpenAI存一火线，“咱们早就不作念为了刷榜而作念的事了。”

他还阐扬注解说，大公司结构复杂、usecase（控制场景）广大，不免影响遵循。比较之下，“一个初创团队联接作念一个标的，斜率笃信高。”他补充谈：“整个公司作念大了都会变慢，看哪个‘没那么差’汉典。”

他也冷漠一个瞎想：一个领有无尽坎坷文挂牵智商的AIAgent，大略才是最合乎的CEO。

当今的组织痴肥、context分享不一致，是东谈主类无法克服的适度，但AI可以。这么的Agent明天能科罚管理的中枢问题，承担起决议者脚色。他说：“东谈主类的context是有限的，但AI可以。”

{jz:field.toptypename/}

九、要是AI的确能瞻望明天，东谈主类该不该按下暂停键

在这段对话的临了，话题转向了一个更抽象的问题：要是让AI去科罚一个天下难题，翁家翌最想作念的是什么。他给出的谜底是怎样瞻望明天。

他坦言，“整个的东西都是可以被瞻望的，是以表面上它是可以用AI科罚的。”

正因为如斯，他反而认为，“要是你能拿到一个能够瞻望明天的机器的话，那么对个东谈主而言，其实是一个灾荒，我认为这会导致整个的价值体系的坍塌。”

他目下罗致的应付形势，是“忘掉这一切”，假装不知谈天下是否笃定，只专注于当下的体验与采用。

他也冷漠了一种阐扬注解：时候大略并非线性流动。明天的我，匡助昔日的我来完成某些决议。

当话题回到现实，他对创业与明天的气魄并不轩敞。他并不否定创业的可能性，但明确称目下还莫得看到饱和好的想法，也认为OpenAI依然是一个值得留住的方位。

他更偏好有的确需求的居品，正如他昔日作念过的“天授”和“退学online”。在他看来，“本领不报复，报复的是即是收拢需求。”

谈到更永恒的明天，他并莫得给我方设定明确的特别。他但愿十年后的我方，能够“作念那时想作念的事”，有饱和的资源与饱和的智商。他仍然采用陆续“投资明天”，让他有采用的权益。

在播客的临了，翁家翌留住了一句谜底。他坦言，“我曾经一度想通了我我方想要什么，可是我其实照旧莫得那么想通，这个问题值得一世去念念考。”

上一篇：牛牛app “游戏Air”手机登场? 红魔11 Air订价3499元起, 值得买吗

下一篇：牛牛游戏app TikTok好意思国拆分有盘算推算落地, 六年拉锯, 兜兜转转如故甲骨文

推荐资讯