

智东西
作家江宇
智东西1月20日报谈,ChatGPT背后的一位中国工程师——OpenAI中枢孝顺者翁家翌,日前在AI播客WhynotTVPodcast秉承专访,他初次细密叙述了我方从清华少年到OpenAIinfra主干的经历。

▲图源自翁家翌GitHub主页
作为强化学习与后磨练(Post-Training)系统的要害工程师,翁家翌深度参与了GPT-3.5、GPT-4、GPT-5等中枢模子的磨练,其搭建的infra系统已成为OpenAI里面大模子磨练与迭代的基础底座,亦然ChatGPT连接进化的要害辅助。
在这场长达两个多小时的对谈中,翁家翌败露了OpenAI里面Post-Training系统的构建逻辑,也阐扬注解了OpenAI为何能连接产出爆款模子。
他还分享了他对AGI界说、OpenAI不“open”品评以及里面东谈主才流动加重等气象的第一手不雅察。
濒临DeepSeek、TikTok、英伟达、谷歌等科技巨头抛来的橄榄枝,他为何最终采用了OpenAI?
谈及职业标的,他又为何自称“卖铲子里最面向客户的那位”,独立下方针“我要最大化我在OpenAIBlog上出现的次数”?
这场对谈,给出了谜底。
一、“卖铲子”到主导Post-Training,他是OpenAI模子背后的基础构建者
在OpenAI里面,简直每一个大型模子的发布名单里,都能看到翁家翌的名字,他主导搭建了OpenAI强化学习后磨练(Post-Training)阶段的中枢基础设施。
“每发一个大的release,每发一个大的模子,我的名字就得放上去。”他说,“因为大家都在用通盘Post-Traininginfra去磨练RHF的模子。”
他说我方“是卖铲子里最面向客户的那位”,因为强化学习模块处在通盘基础设施栈的最尖端。他还给我方的职业生涯设定过一个缱绻:“我要最大化我在OpenAIBlog上出现的次数。”
濒临年青东谈主,他的建议仍是:连接参预工程确立,而不是学术询查。他不护讳地说:“永恒来看,我照旧觉顺应代学术界应该要被重构。”在他看来,要是方针是进入工业界,最报复的是匹配的确的就业需求,“AILab最缺的其实即是Infra东谈主才,infra是个无底洞。”
学术界询查每每陷在一些逆境里,如Atari、MoJoCo等任务上过度拟合,并不可调节为现实问题的科罚智商。他谈及,“我在2022年8月就果断到这个问题,是以慢慢住手了天授的征战,转向在OpenAI里面构建更有意念念的RLInfra。”
而在OpenAI内,他目睹了一系列“半恐怕半势必”的变革。加入之初,他参与的即是WebGPT后续神志,通过强化学习让模子更好地与用户交互。他负责构建的RL磨练系统在ChatGPT爆发式上线之前,已成为公司里面主力使用的infra之一。
发布本日,OpenAI服务器数次被挤爆,他姿色这种“自愿走漏的需求”就像我方作念tuixueonline时遭遇的情形,“阐扬这如实是一个值得参预元气心灵的标的”。
被问到OpenAI为何能作念出如斯爆款,翁家翌归结于两个要素:一是单元时候迭代遵循饱和高,二是教唆层信得过懂本领。
OpenAI在引入了几位前Google工程负责东谈主之后(如BarretZoph、LiamFedus),团队开动系统性擢升工程遵循,单元时候的迭代次数和奏遵循是正比的。
他强调,“RL本质上即是trial-and-error(试错)。你试得越快越多,奏效就越近。”
OpenAI的教唆层也保持对细节的强眷注。GregBrockman(合股独创东谈主兼总裁)简直参与过公司整个基础设施模块,而SamAltman(合股独创东谈主兼CEO)则通过询查助理实时了解公司里面进展。他认为这种本领细节的明锐性和坎坷信息流通恰是OpenAI立异连接阻挡的原因。
翁家翌称,“管公司就像管代码库,一朝不一致,通盘系统就会像组装的东谈主类,身子动了,脚没动。”
二、他为ChatGPT模子搭建后磨练系统,也在重构下一代Infra
ChatGPT3.5老成发布之前,OpenAI里面其实已开动在GPT-4上考证强化学习后磨练(RLHF)历程的可行性。
翁家翌回忆,那时他负责的恰是RLHF磨练Pipeline的举座搭建:旧的infra是跑不动的,我在新infra上调通了初版,先在4上作念通,再迁回3.5。这套Post-Training系统随后被用于通盘ChatGPT系列模子的磨练中。
这并不是一条“拿来即用”的活水线。他谈及,OpenAI里面并莫得现成可复用的RLHF基线,好多要害历程都需要重新构建。
信得过的挑战,是模子效果的讨论圭表并不清亮。“你磨练出好多个checkpoint(查验点),但你不知谈哪个是的确更好。”用东谈主类反馈奖励评估时,模子可能一开动奖励信号很高,之后却因过度拟合(hacking)而性能下落。
最终,团队只可依赖“human-in-the-loop(东谈主机协同)”的评估历程,即让里面职工亲自交互测试、打分投票,选出效果最好的版块。
从本领结构上看,这套Post-Training系统的难度远高于他曾经征战的“天授”框架。toytask(考证算法的小规效法真环境)的瓶颈在环境,而大模子的瓶颈在模子自身。
环境是一个Prompt,筹画只消几微秒,但模子磨练和采样则是几百以致上千秒。系统工程的复杂性在于吞吐与推广的均衡,以及对GPU资源的极限压榨。
而他恰是阿谁站在强化学习、系统工程与谎话语模子交叉点的东谈主。他不仅要懂RL自身的逻辑,也得勾通分散式系统、话语模子的推理形势以及底层架构。
就业强度一度让他因头痛被送进急诊。“基本是早上醒来开动debug,写到晚上睡眠,一周六天。”自那以后,他强制我方每周跑两次3000米,规复膂力。翁家翌回忆称,“我之前在清华的时候,上体育课是即是3000米不足格,然后皆备不会跑3000米的。”
同期,翁家翌也正在参与OpenAI下一代RLInfra的重构就业。“旧架构曾经三年多了,堆积的问题其实曾经好多了。”OpenAI要推倒重来,方针是计帐本领债,匡助询查员以更高迭代遵循鼓吹实。
三、他在福建省队拿下“独逐一块铜牌”,叩开清华大门
濒临“你小时候是个什么样的小孩”的问题,翁家翌从奥数讲起。他在数学上展现出超常的直观智商,每每别东谈主还在筹画时他就曾经写罢了谜底。
尽管解题速率快,他却并不认为我方是学得快的东谈主,反而认为我方在勾通新学问时老是比别东谈主慢,需要付出两到三倍的时候。同期,他也具备一种策略果断:既然慢,就要提前学。
他在初中就主动找数学进修问高中课程内容,初二就完成了大部分高中数学学习,初三开动学微积分。翁家翌坦言,“我想投资我方的明天。”
进入高中后,他因为升学压力开动参加信息学竞赛OI(OlympiadinInformatics),但愿以此作为进入顶尖大学的旅途。他说,对于非北京的学生而言,径直考入清华北大“简直难如登天”。
他曾在数学竞赛上小有收获,但因为学校资源有限、我方准备不充分,最终采用消除数学竞赛,转而专注于OI。
他在福建省内的采用中一齐拼到省队,在高二那年凭借一谈最小二分袒护题得到了全场最高分,胜利拿到清华“降60分”收用经历。但他也坦言,这是一次“险胜”:“那年福建省队唯有一个铜牌,即是我。”
而这一齐的磨练,也塑造了他的民俗和念念维形势。他回忆高三备考时间仍“暗暗写代码”,以致在莫得编译器的iPad上径直键盘敲代码,这么的经历磨练了我方对要道结构的完满剖析与快速定位bug的智商。
他尤其千里迷于“常数优化”这种在算法竞赛中优化时候和代码长度的工程挑战,尽管他说这可能“没什么用”,但“的确很专门念念”。他总结说,OI让他果断到,“我的确可以从里面取得痛快”。
四、他在清华开源功课、修校园网Bug,画虎类狗走进了强化学习
进入高校后,要是要说清华生活里最“出圈”的事,是翁家翌给把整个的功课都开源了。
他网罗了前几届流传下来的“上古功课”和课程材料,在征得无版权部分的说明后,统共上传到了GitHub。他说,在清华,信息差每每被动作一种糊口资源,但“我认为每个东谈主都应该对等地领有这些信息”。
他笑称,“松懈咱们抓一个筹画机的学弟,问问你认不显露捐楼的东谈主,哪怕他把名字放在楼上头,你认不显露他?不显露。但你们显露我,因为毕竟大家都看我功课活的。”他还玩笑说,“比捐楼还有用。”
除了“火遍校园”的功课库,翁家翌在大二也开启了科研之路。他画虎类狗报了清华筹画机系的“学术新兴规划”。那时他对科研标的还一无所知,仅仅浑沌认为“图像的东西挺专门念念”,于是盲选了强化学习,扫尾本以为是搞图像的,其后发现其实是打游戏的。
他其实一直对多个标的有浓厚兴味。除了AI,他也心爱图形学和聚集安全。在大学时,他曾和学长一皆发现并诞生了清华网的缝隙,使得本应收费十元的收获单可以免费以致一分钱下载。他修好Bug之后,还反馈给了教务部门。
图形学一度是他的最爱。他在图形学课程中参预了大都时候与厚谊,完成了一个简直莫得东谈主敢尝试的“16K高清图渲染”大功课,并发明了一种加快迭代顾问的新算法,最终拿到了全班仅有的两个A+之一。
但最终,他照旧消除了图形学。“搞科研不可脚踏两条船”,他作念了采用,采用了陆续走强化学习的路。
五、那些看似“折腾”的科研尝试,成了他走向OpenAI的“前传”
自此,翁家翌开启了他的第一个科研神志:在一个上世纪90年代的游戏中磨练神经聚集,让智能体在固定舆图里完成从出身点到特别的任务,包括杀怪、捡血包、避障、通关。
最终,他用强化学习步骤拿下冠军。
尽管扫尾可以,他却坦言并不享受通盘过程。“这个环境太单一了,要豪恣地用手段谛视磨练崩掉。即使不崩,你也不知谈怎样调参材干保持。”他说,“这种嗅觉就像‘真金不怕火丹’,这比CV(筹画机视觉)调参难十倍、一百倍,全靠heuristics(启发式步骤)。”
也正因此,他在大四有果断地将重点转向器用层面,尝试搭建一套面向强化学习的袖珍基础设施库。“我特殊擅长作念软件工程的事,可以重构代码、优化用户体验。”他说,“但至于怎样调,那不是我想碰的东西。”
大三暑假,他曾前去蒙特利尔的Mila询查所通常实习。彼时他投出大都套磁信却迟迟莫得文书,最终在清华导师的匡助下,才谋划上实习契机。他回忆,那年是2019年夏天,正好是Mila独创东谈主、内容询查所负责东谈主YoshuaBengio荣获图灵奖的几个月后,“好在我是提前谋划的,否则预计就进不去了。”尽管进入的是Bengio所在的实验室,但他径直奴隶的是一位Postdoc,任务是尝试作念一个肖似MoE(夹杂巨匠模子)的神志。
那是他第一次战斗Transformer和话语建模。他花了很永劫候上手,最终也仅仅“撮了一个东西出来”,没什么效果。他回忆:“要让这种东西work,最初得有算力、有工程智商,还要能scaleup。那时就我一个东谈主几块卡,哪怕标的对,也搞不出来。”
“NLP的任务太分散了。”他也不雅察到,那时好多东谈主在尝试把RL用于磨练话语模子,但Transformer容易在强化学习中坍塌,没东谈主知谈怎样让它不崩。
其后东谈主们才发现,要让它work,环境必须“纯”,比如纯文本输入。
他坦言,那时对这些标的并莫得清亮剖析,只认为处处受限。“算力不够,剖析也不够,哪怕有今天的勾通,那时照旧作念不出来。”
大三暑假通常归来后,翁家翌开动准备放洋深造的肯求。但那段时候并不胜利。他坦言,情景其实“不太好”。
眼看身边的同学纷纷进入CMU、Stanford等名校实验室,发出ICLR、NeurIPS等会论说文,而我方“什么都莫得”,落差感袭来。“那时的话,我如实是有少许失望的,其实也花了一段时候来调治我方。后头认为我一直以来应该都是想作念一些让我方卓尔不群的事情。”
最终,他只肯求上了硕士。“那时如实有些失意”,他说在清华,哪怕是海外的PhD和Master,也会被视作天差地远。
翁家翌坦言,牛牛“我一直认为,GPA不是独一的评价缱绻。你得创造我方的评价体系。”他援用导师的圭表:“筹画机系的三大缱绻:论文、比赛、GitHub三位数以上的Star。”这句话影响了他很久,也让他果断到,除了刷收获,还有好多“可见的价值”能让一个学生被天下看到。
本科时间,他戮力在“尽可能少花时候”的前提下保持收获刚好够用,“够用就行,多一分都不想花时候。”他会在期末前筹画现时的GPA,“比如87分是B+,那我就很陶然了。”
不外,濒临放洋这个采用,他也并非皆备零丁于大环境以外。那是在2019年12月,他拿到offer时正巧疫情。
六、他用两个神志“作念慈善”:天授与tuixueonline,一炮而红
在肯求季与疫情交叠的那段时候,翁家翌作念了两个神志,一个叫“天授”,一个是“tuixueonline”。他姿色这两个神志都不是功利性的。
“我不想发paper,认为莫得意念念。”翁家翌坦言。对他来说,多一篇少一篇论文并莫得意念念。“我肯求曾经够用了,比赛我也有了,GitHub三位数star也拼集算有。我更想作念一个正经八百的、能被信得过用起来的神志。”
“天授”的起先,是不想再亏蚀时候“真金不怕火丹”。2019年底,他果断到强化学习(RL)限制的问题不在于算法自身,而在于实验平台。
他看了那时最主流的RLlib源代码,发现抽象相当复杂,几十万行代码简直无法动手,干脆推倒重来。于是他在2020年春节假期开动自写一套RL实验平台,初版两周就完成了。
不同于RLlib的“沦落”,天授从设计发轫就追求极致的一致性(consistency)。翁家翌认为,天授“火”的中枢在于信得过收拢了科研用户的需求:一套浅近、好改、踏实的框架。
另一个神志“tuixueonline”,则源自切身需求。他急需一个实时爬虫器用来查询签证预约情景。“于是,我就手撸了一个轻量爬虫,否则没观点。”他说。同期,翁家翌也认为好多东谈主应该有这个需求,是以就开源了。
这个神志飞速传播,一开动就有一百多万点击,当今积聚曾经破千万。天然最终因为好意思领馆升级系统而失效,他也没再阐扬,但这个“短寿神志”完成了我方的就业。
他把这两个神志都称作“作念慈善”。“皆备nonprofit(非盈利),这种慈善神志让我嗅觉特殊得意过。”
当被问及这种“对impact(影响力)的追求”是何时萌芽的,他回忆起高三时一个“灵光一现”的想法:“要是东谈主生是场游戏,结算分数即是身后还有些许东谈主紧记你的名字。”
翁家翌称,“我认为,你不可能对整个东谈主都好,这个是很难作念到的事情。可是,我可以尝试力所能及地对我身边的东谈主好,作念一些对大家有意念念的事。”
七、加入OpenAI之前,他已澈底想了了:要工程,不要真金不怕火丹
2020年,翁家翌资料开动了CMU的硕士课程,因疫情一年都在家上网课。也恰是在这段时期,他开动准备找就业。他一开动投了18家公司,仅收到Google和AutoML(陈天奇团队)的offer。“我不想去Google,在大厂当螺丝钉,然后作念一些我方不是那么心爱的事儿。”
在此之后,他陆续送达并陆续拿到更多公司offer,包括幻方量化、英伟达、TikTok,以及FacebookAIResearch(FAIR),其中幻方彼时正在筹建AILab(其后成为DeepSeek)。
他坦言,要是莫得其他采用,可能就会加入幻方作念强化学习infra。但最终,他采用了OpenAI。
这时距OpenAI尚未进入大家视线,ChatGPT时刻还未驾临。
他作念出这个采用,更多是出于对强化学习和系统智商的认同。“那时OpenAI和DeepMind是强化学习作念得最好的两个lab。”他想体验“天下最前沿的research是怎样作念的”,而不是留在几个PhD手搓的小作坊式科研环境里。他想学的是工业级科研的步骤论。
他最终进入了OpenAI的强化学习组,由JohnSchulman(OpenAI合股独创东谈主之一)亲自招入。“是他亲自口试的我。我很戴德他给了我契机。他去职那天,我愁肠了一通盘下昼,把电脑都关了。”
口试中,JohnSchulman只给了两个东谈主统一谈工程题目,一个是翁家翌,另一个是Codex神志的要害成员AndreyMishchenko。“那是一谈端到端的题,很盛开,他给了我3小时,我两个小时就写罢了,现场还修好了一个bug。”
他猜度,John敬重的是他的工程智商,“Schulman说我的GitHub主页很‘漂亮’,他应该也认同我这个评价体系。”
谈及是否接头过读PhD,翁家翌说从未厚爱想过。“要是想进工业界,读PhD其实是在亏蚀人命。”他说:“你皆备可以以master为跳板,然其后凑够PhD进工业界的圭表。能够让对方挑选master的你,而不是另外一个PhD。我认为是想了了相反化,这个是很要害的。”
PhD的磨练是让你擅长讲故事、写paper、绘制,而工业界要的是快速迭代和系统正确性。他说,我方的一位OpenAI共事曾经是强化学习标的的PhD,其后征战了一个很出名的RL框架。这位共事总结过一句话,让他印象深切:“教一个researcher怎样作念好engineering,比教一个engineer怎样作念好research资料多。”
在翁家翌看来,询查的价值在于考证,而考证的要害是infrastructure。只消基础系统正确、超参合理、迭代遵循高,就能快速筛选出有用想法。而“ideaischeap”,信得过稀缺的是考证的遵循和质地。
“每家infrastructure都有不同进度的bug,谁修的bug多,谁的模子性能就越好。”他刀切斧砍地说,我方没兴味再作念调参式的询查了,“我更景色卖铲子。”
翁家翌的想法是:把infra地基打好,让别东谈主去玩,让别东谈主去发paper,也许还能带上挂名。
八、OpenAI还“Open”吗?从AGI界说到组织急躁,翁家翌给出谜底
在翁家翌看来,“Agent”和“强化学习的post-training”之间莫得本质判袂。“它们本质上是一个东西,仅仅中间多了几步交互。”他认为,在本贯通径上,环境变化是主要别离,但并不组成新挑战。
谈及AGI的界说,他并不认同有斡旋圭表。“OpenAI里面你抓15个东谈主,可能有20种界说AGI的步骤。”他我方的界说是:“要是它能完成80%、90%我认为有意念念的任务,那它可能即是是AGI了。”
而现时他平日负责的代码上,尚无法省心交给模子修改。翁家翌称,“AIinfra的数据集袒护极低,成本太高了,目下还波及不到这块。”
在被问及是否担忧我方被AI取代时,他认为每个东谈主每每会过度响应,“但现实上不会这么的,它是个很慢的、规律渐进的过程。”
翁家翌自称青睐开源,但也特殊了了这背后的衡量。“你没法径直把最好的模子开源,因为公司要糊口。”开源与公司糊口之间是不可幸免的采用,尤其在资源密集型的模子研发阶段,必须保险成本输血与营业可连接。
在他看来,OpenAI的“Open”政策并不料味着对整个同业盛开,而是尽可能以低门槛的形势让芜俚东谈主用上弘大器用。“比如ChatGPT有免费版块,还有语音风光体验,这么可能是更故意于‘造福全东谈主类’,而不是径直开源。你给出裸的模子权重,芜俚东谈主也不知谈怎样用。”
对于外界对于“OpenAI已不Open”的品评,他文书:表面上可以作念到开源和社区反馈,但现实很难。你一开源,别东谈主就坐窝闭源压你,导致你融不到钱,没法陆续实验。
他也坦言,要是公司资源不受限,“我天然会很痛快性开源RLInfra团队这两三年的遵循。
被问到OpenAI终了AGI的最大挑战,他用一个词空洞:“践诺。”在他看来,“只消组织能在正确方进取踏实践诺,就饱和了。”他坦言,“就比如说差点倒闭那次,只消别再那样就好。”
对于SamAltman那场风云,他回忆称:“董事会对Sam的不信任投票,把他赶了出去。”但底层职工的响应是“惶恐”,因为对他们来说,董事会之前对里面简直莫得透明度,“咱们也不知谈这个决议是怎样作念的”。
他还提到,OpenAI最终辅助Sam纪念,是因为“纯本领出身的东谈主并不一定能撑起通盘AI公司”。“你需要一个能搞钱、搞算力、搞资源的东谈主,不是唯有很好的询查劝诫就行。”
他将Sam抽象成一个“identity(精神标志)”,并说:“要是你试图用AI来替代这个identity,别东谈主对它的认同就会缺失。”
他并不护讳团队流失的问题。对于东谈主才流动,他的气魄是:“一个健康的组织,整个东谈主都是可以被替代的。”只消有造血智商,培养新东谈主,OpenAI就能连接运转。
但他也承认,OpenAI并非在所相关键缱绻上都处于全球卓越,比如在infra迭代速率上。
“比如DeepSeek那波宣称迭代很快,这如实让里面好多东谈主警悟。”他提到,这亦然重构一版Infra的原因,Infra的迭代是OpenAI存一火线,“咱们早就不作念为了刷榜而作念的事了。”
他还阐扬注解说,大公司结构复杂、usecase(控制场景)广大,不免影响遵循。比较之下,“一个初创团队联接作念一个标的,斜率笃信高。”他补充谈:“整个公司作念大了都会变慢,看哪个‘没那么差’汉典。”
他也冷漠一个瞎想:一个领有无尽坎坷文挂牵智商的AIAgent,大略才是最合乎的CEO。
当今的组织痴肥、context分享不一致,是东谈主类无法克服的适度,但AI可以。这么的Agent明天能科罚管理的中枢问题,承担起决议者脚色。他说:“东谈主类的context是有限的,但AI可以。”
{jz:field.toptypename/}九、要是AI的确能瞻望明天,东谈主类该不该按下暂停键
在这段对话的临了,话题转向了一个更抽象的问题:要是让AI去科罚一个天下难题,翁家翌最想作念的是什么。他给出的谜底是怎样瞻望明天。
他坦言,“整个的东西都是可以被瞻望的,是以表面上它是可以用AI科罚的。”
正因为如斯,他反而认为,“要是你能拿到一个能够瞻望明天的机器的话,那么对个东谈主而言,其实是一个灾荒,我认为这会导致整个的价值体系的坍塌。”
他目下罗致的应付形势,是“忘掉这一切”,假装不知谈天下是否笃定,只专注于当下的体验与采用。
他也冷漠了一种阐扬注解:时候大略并非线性流动。明天的我,匡助昔日的我来完成某些决议。
当话题回到现实,他对创业与明天的气魄并不轩敞。他并不否定创业的可能性,但明确称目下还莫得看到饱和好的想法,也认为OpenAI依然是一个值得留住的方位。
他更偏好有的确需求的居品,正如他昔日作念过的“天授”和“退学online”。在他看来,“本领不报复,报复的是即是收拢需求。”
谈到更永恒的明天,他并莫得给我方设定明确的特别。他但愿十年后的我方,能够“作念那时想作念的事”,有饱和的资源与饱和的智商。他仍然采用陆续“投资明天”,让他有采用的权益。
在播客的临了,翁家翌留住了一句谜底。他坦言,“我曾经一度想通了我我方想要什么,可是我其实照旧莫得那么想通,这个问题值得一世去念念考。”
- 牛牛游戏app 水饺界“蜜雪冰城”,撑起一个IPO2026-02-24
- 牛牛游戏app 窦靖童直言:敷裕姆妈与艰苦侘傺爸爸的对比让我肉痛!2026-02-23
- 牛牛游戏 这等于为啥篮球和足球阐述纷繁转战乒乓球,划定和实力是否了解先不谈,收视率才是他们的真观念2026-02-22
- 牛牛游戏 不经一事,不懂一东谈主!2026-02-21
- 抢庄牛牛 外出上茅厕时水花溅到屁股,需要追思被传染病毒吗?2026-02-20
- 牛牛游戏 新春走下层·驻外记者回乡手记|在中国,感受火箭一飞冲天的漂泊2026-02-19
