【新智元导读】Anthropic自家工程师早已基本不写代码了,,,,,,却280美元一个使命,,,,,,花钱请约1000名外部工程师,,,,,,手把手教Claude Code写出好代码。。。喂养前沿模子的,,,,,,终究照旧人。。。 早在今年1月,,,,,,Claude Code认真人Boris Cherny就爆料自己已经两个多月没手写过一行代码,,,,,,一天就让Claude提交22个拉取请求(Pull Request),,,,,,前一天则提交了27个,,,,,,全是模子写的。。。 流程大致是这样。。。先从一份包括数千个客栈的清单里,,,,,,选一个GitHub的代码客栈。。。然后建一个PR,,,,,,也就是开发者提交接码修改的那一步。。。再写一段提醒词,,,,,,把使命讲清晰。。。 另一个使命中,,,,,,外部工程师给MLflow这个开源机械学习平台做清静修复,,,,,,针对它加载模子时下载Python包可能泛起的下令注入误差。。。质料的要求十明确确:既要盖住下令注入,,,,,,又不可误伤正当的pip(Python包管理器)选项。。。 这些使命的要求,,,,,,已经凌驾了数据标注的领域,,,,,,更像是要让一个资深工程师,,,,,,把脑子里那套「这样写更好」的判断原样拷给模子。。。 Anthropic官方把它界说为项目级的AI智能体。。。它能读完整个代码库,,,,,,跨文件做妄想,,,,,,直接执行修改,,,,,,跑测试,,,,,,再凭证失败的效果自己迭代。。。 默认情形下,,,,,,高危害文件修改或下令执行需要用户批准;;;;为镌汰重复授权带来的 批准疲劳,,,,,,Anthropic还引入了sandboxing,,,,,,让Claude Code在预设文件系统和网络界线内更清静地运行。。。 这些工具,,,,,,通俗的代码语料喂不出来。。。它已往藏在资深工程师的代码审查里,,,,,,是人传人的履历。。。现在,,,,,,Anthropic想通过招募人类编程专家,,,,,,把它酿成可以购置的数据。。。 2015年,,,,,,Snorkel还只是Ratner读博时的一个「下昼项目」:与其花大价钱雇人一条条标数据,,,,,,不如用程序和规则做「弱监视」(weak supervision),,,,,,让模子不靠人工逐条标注也能学。。。 Snorkel昔时要破的,,,,,,正是「人工标注又慢、又贵、又不稳」这个老浩劫,,,,,,那时AI开发约80%的时间都耗在手工标注数据上,,,,,,因此Snorkel最初的梦想,,,,,,就是只管把人从标注里解放出来。。。 可到了前沿模子时代,,,,,,最稀缺、最值钱的又回到了人身上,,,,,,只是换成了博士、医生、状师、资深工程师等专家的品味和判断。。。这家靠「少用人」起身的公司,,,,,,现在最赚钱的生意反倒是组织一支腾贵的专家雄师去训练前沿AI,,,,,,Marlin只是其中一单。。。 Snorkel官网这样形貌这套事情流:先界说使命、评分标准和验证器,,,,,,框定「什么算好」,,,,,,再跑专家评审流水线,,,,,,作者、多名评审、最终裁决者层层把关,,,,,,全程留痕。。。 它还会把评估情形和数据一并搭好,,,,,,让统一批使命能在差别模子版本上重复跑,,,,,,得出可复现、可较量的分数。。。而要让分数清洁可比,,,,,,评分的人就不可受版本滋扰。。。这些外部工程师不知道自己评的是哪个版本,,,,,,缘故原由就在这儿。。。 Snorkel一个果真的执法偏向条约岗,,,,,,每个高质量使命10到100美元;;;;而Marlin的软件工程使命是280美元一个、约一小时,,,,,,折成时薪差未几是偕行的两倍半(Scale AI、Mercor给工程师开到每小时110美元)。。。顶尖专家周入还能凌驾3000美元。。。 它官方写明:用户开启隐私模式后,,,,,,代码绝不会被它或第三方用于训练;;;;只有关闭隐私模式,,,,,,它才可能用代码库数据、提醒词、编辑行为、代码片断,,,,,,来刷新AI功效、训练模子。。。 Cursor的Tab模子天天产出凌驾10亿个编辑字符,,,,,,请求量比初版涨了约100倍。。。更进一步的Composer,,,,,,通过强化学习(RL)训练,,,,,,让模子在大宗代码使命情形中学习挪用编辑、搜索等工具,,,,,,处置惩罚更长周期的工程使命。。。 今年2月,,,,,,xAI并入SpaceX。。。4月尾,,,,,,SpaceX拿下了年内以600亿美元收购Cursor母公司Anysphere的权力,,,,,,或者先付100亿美元做深度相助。。。马斯克看中的正是Cursor手里那份全球最活跃的真实开发者行为数据。。。 5月25日,,,,,,马斯克在X上宣布,,,,,,新一代基础模子Grok V9-Medium训练完成,,,,,,参数1.5T,,,,,,是当宿世产模子的3倍。。。他特意点出,,,,,,这照旧没加Cursor数据补训之前的效果,,,,,,加完「编程能力会强许多」,,,,,,模子预计6月中旬宣布。。。 OpenAI厥后的Codex也走上了这条路。。。2025年宣布的Codex由codex-1驱动,,,,,,OpenAI称其是在真实编码使命上通过强化学习训练的,,,,,,目的是写出贴近人类气概、切合PR习惯的代码,,,,,,还能重复跑测试直到通过;;;;每个使命跑在预装了你代码库的隔离沙箱里。。。 这说明,,,,,,HumanEval那类老的基准测试(benchmark)已经刷到饱和,,,,,,光看跑分意义不大了。。。真正的战场,,,,,,是真实开发历程里那些重复、试错、推翻重来的数据。。。
主理单位:人与动物 运行维护单位:中国政府网运行中心
版权所有:中国政府网 中文域名:中国政府网.政务
网站标识码bm58232452 京ICP备05070218号 京公网安备11010202000001号
中国政府网微博、微信
主理单位:中国政府网 运行维护单位:中国政府网运行中心
网站标识码bm58232452
京ICP备05070218号 京公网安备11010202000001号