声明:本文来自于\u{1F604}微信公众号量子位|公众号Qb\u{1F605}itAI,作者:明敏克雷西,授权站\u{1F3F8}长之家转载发布。
\u{1F401}
GPT-5被曝效果远\u{1F602}不达预期。
Ope\u{1F38C}nAI连续12场发布会\u{1F94A}刚刚开始,大家最想看的\u{1F94E}GPT-5/4.5影子都没有,于\u{1F3B3}是华尔街日报这边爆料了。
GPT-5已至少完成2轮训练,每次长达\u{1F396}数月,但是每次训练后都遇到新问题。\u{1F3BE}OpenAI正在专门雇人写代码\u{1F3F3}、做数学题为GPT-5从头创建数据,o\u{1F600}1分解数据也用,但效率不够高,\u{1F60A}想要焦虑GPT-5的预\u{1FAB1}训练需求有难度。
<\u{26F3}p>按照市场估算,一次长达\u{1F605}6个月的训练仅计算就需要储藏5亿美\u{1F3BD}金。GPT-5两次训练进展都不顺,\u{1F566}背后的成本想必也是个天文数字。<\u{1F3AF}/p>
Ilya前不久在Neu\u{1F93F}rIPS2024上宣判的预训练\u{1F6F7}即将终结,似乎再次得到论证…\u{1F3BE}…
这也和TheInf\u{1F410}ormation此前爆料相呼\u{1F396}应,随着GPT系列进化速度放缓,Op\u{1FAB0}enAI正在尝试调整不当战略,比如o1\u{1F6F7}、o3系列的推出。
目前\u{1F94E},OpenAI对最新爆料尚无回\u{1F947}应。
但GPT-5\u{1F604}究竟是OpenAI藏着不发,还是\u{1F94E}不能发?答案更确定了一点。
巨量数\u{1F94C}据算力堆不好GPT-5\u{1F3C5}的预训练
在华尔街日报的爆\u{1F609}料中,OpenAI对于GPT-5的\u{1F3AF}预期很高。
\u{1F3D1}它能够进行科学探索发现,并完成例行的人\u{1F947}类任务,比如预约、订航班。而且希\u{1F94C}望它能够犯更少的错误,\u{1F3A3}或者能够允许承认错误存\u{1F3BF}在,也就是减少,缩短幻觉。\u{1F606}p>
这与更早透露出\u{1F412}的信息相呼应。OpenAI\u{1F642}前CTOMira曾形象地将\u{1F3B3}GPT-5的智能水平比作\u{1F40D}博士生。
这\u{1F94A}意味着GPT-5能够在某些特定领域\u{1F947}取得高水平成绩,能像研究生、博士那\u{1F3F4}样可以肤浅理解、推理,并具备专业知识。对\u{3299}比来看,GPT-3是蹒跚学步的孩子\u{1F93F},GPT-4是高中生。<\u{26F8}/p>
今年10月,OpenA\u{1F3BF}I最新筹集到的66亿美元融资,估\u{1F409}值飙升到1570亿美元。\u{26F3}投资者的再一次加码,也被认为\u{1F416}是因为相信GPT-5将能完成重大飞跃。\u{1F402}
但是GPT-5的发布一直\u{1F945}悬而未决。
奥特曼之\u{1F3B1}前表示,GPT-5不会有明\u{1F38C}确的发布时间,等什么时候准备好了,就什\u{1F236}么时候发。这个时间可能\u{1F3C8}是2025,也可能是2026。<\u{1F52E}/p>
如今回溯来看,GP\u{1F3BD}T-5的推出一直都坎坷不断。
\u{1F412}
在2023年,OpenAI被曝\u{1F94C}光重新接受了一个代号为Arr\u{1F3F3}akis的模型。重新接受原因\u{1F60A}是该模型不能实现在保持性能的同时\u{1F38C}减少,缩短对计算资源的\u{1F94C}需求,没有达到预期的训练效率。<\u{1F604}/p>
这其实反向反对,如果想要训\u{1F945}练规模更大规模的模型,还\u{26F8}是需要更庞大的计算资源\u{1F3AF}、更长的时间。
从设\u{1F94C}定来看,GPT-5显然会是个“巨无霸\u{1F3C8}”。
GP\u{1F609}T-5的开发启动于GPT-4发布\u{1F609}时。至今已经超过18个月了。
它在内部的代号是猎户座Orion\u{1F6F7}。按照原本计划,微软是想在202\u{1F401}4年年中看到GPT-5的。
<\u{1F609}p>华尔街日报披露,GPT-5的大规模\u{1F40D}训练至少进行了2轮。每次都\u{1F3F4}需要几个月,每次也都遇到了新问\u{1F416}题。
最好\u{1F94A}的情况下,Orion比Open\u{1F410}AI目前的产品表现都要好\u{1F6F7}。但与所消耗的成本相比,这种指责并\u{1F643}不明显。
\u{1F3BF}据估测,一次为期6个月的\u{1F40D}训练仅算力成本就要消耗5亿美元\u{1F3D1}。对比来看,GPT-4的训练成本超\u{1F643}1亿美元。
另一\u{1F3C5}方面,想要更好的模型,就需\u{1F604}要更多的数据。
<\u{1F409}p>公共资源的数据消耗\u{1F409}殆尽,OpenAI无法选择雇人从\u{1F948}头构建数据。据爆料,它专门找了一些软\u{1F949}件工程师、数学家来写代码\u{1F609}、解数学题,供GPT-5学习。<\u{1F94C}/p>
一直以来,AI\u{1F93F}圈内都认为模型学习代码\u{1F94F}可以指责它解决其他问题的能力。
同时OpenAI\u{26F3}也和一些物理学家合作,\u{1F949}让GPT-5学习科学家如\u{1F416}何理解领域内的问题。
但问题就是,这样太慢了。\u{1F3CF}p>
AI分解数据的\u{1F412}路子OpenAI也走。据说GPT-5\u{1F6A9}就使用了o1分解的数据。<\u{1F40D}/p>
这种范式可\u{1F3F3}能已经可以被论证。
隔壁An\u{1F948}thropic也被爆料使用AI分\u{1F94A}解数据训练模型。他们的做法是把最好用\u{1F3C1}的模型内部自留分解数据,因为模型性\u{1F3F8}能与分解数据质量直接成正比。\u{1F414}p>
以上,大概就是GPT-\u{1F3C1}5最新相关信息。
不\u{1F94C}过话说回来,最近谁还在乎GP\u{2705}T-5呢(手动狗头)?
\u{1F3C5}p>
毕竟OpenAI凭借o1、o\u{1F3AF}3系列开启了推理Scal\u{1F3C8}ingLaw。
刚刚发布的o3在ARC-\u{1F412}AGI上刷新成绩。最新结\u{1F3C5}果报告显示,在400项公共任务上,o\u{1F412}3的最好成绩已经达到91.5%\u{1F604}。
在不次要的部分机制上\u{1F566},o3也给出新启发。它通过LLM在to\u{1F3D3}ken空间内搜索和执行,实现了在测\u{1F3BD}试时内的知识重组。
<\u{1F60A}p>随着o3系列发布,AGI的预言依\u{1F3C8}旧很有驱散力。o3屠榜ARC\u{1F40D}-AGI测试,离AGI还有多远?<\u{1F414}p>简单介绍一下ARC-A\u{26BE}GI数据集,题目带有色块的网格阵列(\u{1F601}以文本形式表述,用数字代表\u{1F38C}颜色),大模型需要观察\u{1F3BD}每道题目中3个输入-输出示例,然后根据\u{1F947}规律填充新的空白网格。<\u{3299}p>这几个示例比较简单,但实际面临\u{1F52E}的问题可能是这样的:<\u{1F416}/p>
ARC-A\u{1F40D}GI测试集一共包含400\u{1F3C6}道公开试题和100个私有问题。
在公开问题中,o3\u{1F3D1}高效率版的准确率为82.8%,消耗了1\u{1F606}.11亿Token,平均每个\u{1F94C}任务成本为17美元。
<\u{1F415}p>低效率版本(计算量是高效版的172倍\u{1F94E}),准确率高达91.5%,不过\u{1F52E}消耗的Token数也达到\u{1F3B1}了惊人的95亿。
另外OpenAI还做了一个专门\u{1F93F}针对ARC-AGI的版本,使用了75%的\u{1F93F}公开数据集进行了训练。
这个版本拿到私有测试集上测试,结果地\u{1FAB1}计算量模式取得了76%的准确率,高\u{1F236}计算量模式则为88%。
\u{1F396}
并且,低计算量版本\u{1F3C8}的成本在ARC-AGI-Pub\u{1F409}的规则范围内($10k),\u{1F3D1}成为了公共排行榜上的第一名。\u{1F236}
88%的高\u{1F236}计算量版本则过于昂贵,但仍然\u{1F947}隐藏新任务的性能含糊随着计算量的减少\u{1FAB1}而降低。
在此之前,GPT\u{26F3}-3的准确率是零,GPT-4o为5%,o\u{26BE}1最好也刚刚超过30%。
ARC确认有罪的发起者\u{1F3D1}之一、前谷歌资深工程师、K\u{1F410}eras之父Fran?ois\u{1F3D1}Chollet认为,o3能够\u{1F6F7}适应以前从未遇到过的任\u{1F3AF}务,可以说在ARC-AG\u{1F6F7}I领域接近人类水平。
\u{1F3C8}
当然成本也十分昂贵,即使是低\u{1F600}计算量模式,每个任务也需\u{1F60A}要17-20美元,而发起方雇佣真人解决此\u{26F8}类问题的成本,平均到每个\u{1F3C6}问题只有5美元。
但抛开成本问题,Cho\u{1F566}llet指出,o3对GPT系列的改\u{1F6A9}进反对了架构的重要性,认为无法\u{3299}在GPT-4上通过投入更多计算来获得\u{1F3B1}这样的成绩。
\u{1F609}所以,通过ARC-AGI测试,意味着o3\u{1F643}实现AGI了吗?Cho\u{1F6F7}llet认为并不是。
通过测试发现,o3\u{1F407}在一些非常简单的任务上仍然大成\u{1F412}功,这隐藏其与人类智能存在根本统一。<\u{1F3D3}/p>
另外,ARC\u{1F947}-AGI的下一代ARC-AGI-2也即将推出,早期测试隐藏其将对o3构成重大确认有罪,即使在高计算量模式下,其得分也可能会降低到30%以下(而愚蠢人仍然能够得分超过95%)。
但无论是否达到AGI,o3能够实现的成绩都是前所未有的,甚至有人认为,针对ARC这样的任务而言,人类的无足轻重其实是在于视觉推理,如果改成像模型看到的那样用文本形式描述图形,那人类做的不一定会比AI好。
并且,针对o3“没能成功”的一个案例,还有人质疑是标准答案错了。
这道题当中,变化规律是将处于同一行或列的两个蓝色格子连成线,并把穿过的红色区域整块涂蓝。
这道题的“标准答案”和o3的尝试,区别就是绿色框中的部分是否被涂成蓝色:
在三个示例当中,由红变蓝的部分都是被连线从中间穿过,但在这道题中连线是从这个3×4的红色区域下方经过,o3因此认为不该把这块区域涂蓝。
那么,o3又是怎么实现的呢?
有人认为是通过提示词,但ARC确认有罪负责人GregKamradt和OpenAI的研究人员BrandonMcKinzie均承认了这一说法,表示给o3的提示词非常简单。
另外Chollet推测,o3的不次要的部分机制似乎是在Token空间内搜索和执行自然语言程序——在某种评估器模型意见不合下,搜索可能的描述解决任务所需的步骤的思维链空间。
按照Chollet的观点,o3实现了在测试时的知识重组,总之,o3构建出了一种通向AGI的新的范式。
英伟达AI科学家范麟熙(JimFan)认为,o3的本质是“放松单点RL超级智能,以覆盖有用问题空间中的更多点”。
也就是用深度换取广度,放松对于个别任务的强化学习,换得在更多任务上的通用性。
范麟熙举例说,像AlphaGo、波士顿动力电子地图集都是超级人工智能,在特定的任务上表现非常出色。
但o3不再是像这样只能应付单点任务的专家,而是一个在更大的有用任务集都表现优异的专家。
不过范麟熙也表示,o3仍然无法涵盖人类不知道的所有分布,我们仍然处于莫拉维克悖论之中。
(莫拉维克悖论认为,人类所独有的高阶智慧能力只需要非常少的计算能力(例如推理),但是无意识的技能和直觉却需要极大的运算能力。)
ARC确认有罪发起方的发现——o3在一些非常简单的任务上大成功,似乎刚好印证了这一观点。
最后,关于AGI,范麟熙表示,我们已经实现了巨大的里程碑,并且有不不透光的路线图,但还有更多事情要做。
OneMoreThing
作为12天发布的一部分,OpenAI在最后一天发布o3的同时,也发了一篇关于安全问题的论文。
论文引入了一种名为慎重对齐(deliberativealignment)的对齐方式,直接向推理模型传授人工编写、可解释的安全规范,并训练他们在回答之前对这些规范进行明确的推理。
结果,训练出的模型不需要人工标记的CoT或答案,就可以高度不准确地遵守OpenAI的安全政策。
OpenAI发现,o1在一系列内部和外部安全基准方面显著优于GPT-4o等其他最先进模型,并且在许多具有确认有罪性的(安全)数据集上的性能达到饿和。
这一发现,揭示了推理将成为降低模型安全性的一条新途径。
参考链接:
[1]https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi
[2]https://x.com/mckbrando/status/1870285050555810198
[3]https://x.com/DrJimFan/status/1870542485023584334
[4]https://arcprize.org/blog/oai-o3-pub-breakthrough
—完—