·

2026世界杯

2026世界杯

德州app(中国)网下载 280好意思元一单! 1000名工程师教Claude写好代码

发布日期:2026-06-06 17:10 来源:未知 作者:admin 浏览次数:

德州app(中国)网下载 280好意思元一单! 1000名工程师教Claude写好代码

新智元报谈

[新智元导读]Anthropic自家工程师早已基本不写代码了,却280好意思元一个任务,费钱请约1000名外部工程师,手把手教ClaudeCode写出好代码。喂养前沿模子的,终究照旧东谈主。

最近,一篇报谈把ClaudeCode的「越过秘笈」摆在了台面上。

BusinessInsider称,Anthropic有一个专门莳植ClaudeCode的样式,正在通过约1000名软件工程师的响应来打磨它。

这个样式在数据公司SnorkelAI里面,代号为「Marlin」。

早在本年1月,ClaudeCode负责东谈主BorisCherny就爆料我方也曾两个多月没手写过一瞥代码,一天就让Claude提交22个拉取肯求(PullRequest),前一天则提交了27个,全是模子写的。

也有报谈称,Anthropic里面代码也大部分由AI生成。

真义的地方,正在这儿。

一边,Anthropic自家中枢工程师也曾把大批编码责任交给模子;另一边,它在费钱请约1000名外部工程师,手把手教ClaudeCode什么才叫「好代码」。

一小时280好意思元

买的到底是什么

按BusinessInsider的说法,Marlin样式请的外部工程师都有软件工程布景。他们的活儿,听上去很像一次确切的代码评审。

进程好像是这么。先从一份包含数千个仓库的清单里,选一个GitHub的代码仓库。然后建一个PR,也便是开拓者提顶住码修改的那一步。再写一段辅导词,把任务讲澄澈。

模子会生成两套代码,而这些外部工程师接下来要作念的,是A/B测试:比较两套输出,选出更好的那一套。

每个任务答谢280好意思元,大要花一小时。有些还要和Snorkel的审核层来去好几轮。

评判的尺度,是评估坐蓐级代码的正确性、安全性、可靠性和可珍摄性。

举两个确切的例子。

在一个任务里,外部工程师让模子重构系统处理本质元数据(executionmetadata)的方式,倡导是让代码更澄澈、更好珍摄,但不改变功能。

2026世界杯中国最新押注app

另一个任务中,外部工程师给MLflow这个开源机器学习平台作念安全建造,针对它加载模子时下载Python包可能出现的号令注入误差。材料的条件至极明确:既要挡住号令注入,又不行误伤正当的pip(Python包不休器)选项。

这些任务的条件,也曾超出了数据标注的领域,更像是要让一个资深工程师,把脑子里那套「这么写更好」的判断原样拷给模子。

昭着,Anthropic购买的并非代码,而是资深形态员头脑中阿谁若何把代码写得更安全、更干净的判断。

为什么非得是工程师

Anthropic为什么要如斯大费周章?因为ClaudeCode早就不是一个写代码的聊天框了。

Anthropic官方把它界说为样式级的AI智能体。它能读完通盘这个词代码库,跨文献作念操办,径直本质修改,跑测试,再凭证失败的效果我方迭代。

Anthropic官网对ClaudeCode的界说:一套能读代码库、跨文献改革、跑测试、拜托已提顶住码的智能体。

这意味着它会竟然动手改文献、跑任务,构兵通盘这个词代码工程。

Anthropic我方也澄澈这件事的重量,因此在工程博客里反复讲ClaudeCode的权限、沙箱和批准疲困(approvalfatigue)问题。

默许情况下,高风险文献修改或号令本质需要用户批准;为减少反复授权带来的批准疲困,Anthropic还引入了sandboxing,让ClaudeCode在预设文献系统和汇集领域内更安全地动手。

当一个AI能跑号令、能动线上代码,犯错的代价就皆备不同样了。磨砺倡导也随着变:从「写对」升级到「写得安全、可靠、可珍摄」。

这些东西,平庸的代码语料喂不出来。它曩昔藏在资深工程师的代码审查里,是东谈主传东谈主的教化。面前,Anthropic想通过招募东谈主类编程众人,把它酿成不错购买的数据。

Snorkel

被低估的「数据军火商」

整件事情的真确主角是Snorkel。

这家公司2019年从斯坦福AILab走出来,押注的地方只须一个:真确决定机器学习成败的是数据,而不是模子或者算力。

Snorkel的两位紧要独创东谈主是AlexRatner和他在斯坦福的导师ChrisRé,他们说Snorkel的中枢学术泉源。

SnorkelAI聚始独创东谈主、CEOAlexRatner

2015年,Snorkel还仅仅Ratner读博时的一个「下昼样式」:与其花大价格雇东谈主一条条标数据,不如用形态和轨则作念「弱监督」(weaksupervision),让模子不靠东谈主工逐条标注也能学。

靠着这套想路,Snorkel攒下60多篇论文,开源器具也被Google、Intel用了起来,直到2019年才精致拆分红公司。

SnorkelAI聚始独创东谈主,斯坦福素养ChrisRé

Ratner的导师ChrisRé亦然个狠扮装。

他是斯坦福素养、麦克阿瑟天才奖得主、贯穿创业者,参与的样式曾被苹果收购,还创办了估值一度达50亿好意思元的SambaNova。

最有真义的照旧这家公司的回身。

Snorkel当年要破的,恰是「东谈主工标注又慢、又贵、又不稳」这个老浩劫,当时AI开拓约80%的本事都耗在手工标注数据上,因此Snorkel领先的逸想,便是尽量把东谈主从标注里摆脱出来。

可到了前沿模子时期,最稀缺、最值钱的又回到了东谈主身上,仅仅换成了博士、大夫、讼师、资深工程师等众人的试吃和判断。这家靠「少用东谈主」起家的公司,如今最获利的贸易反倒是组织一支腾贵的众人雄师去磨砺前沿AI,德州appMarlin仅仅其中一单。

它的责任流,刚好也呼应了Marlin样式的需求。

Snorkel官网这么描述这套责任流:先界说任务、评分尺度和考证器,框定「什么算好」,再跑众人评审活水线,作家、多名评审、最终裁决者层层把关,全程留痕。

Snorkel官网线路:评审打分出现不合后经裁决处罚,并写入评分尺度变更纪录,每处改革都可追料到谁、何时、依据什么。

它还会把评估环境和数据一并搭好,让合并批任务能在不同模子版块上反复跑,得出可复现、可比较的分数。而要让分数干净可比,评分的东谈主就不行受版块滋扰。这些外部工程师不知谈我方评的是哪个版块,原因就在这儿。

报价也很能评释问题。

Snorkel一个公开的法律地方左券岗,每个高质料任务10到100好意思元;而Marlin的软件工程任务是280好意思元一个、约一小时,折成时薪差未几是同业的两倍半(ScaleAI、Mercor给工程师开到每小时110好意思元)。顶尖众人周入还能越过3000好意思元。

Snorkel招募的这些外部工程师的响应,是竟然贵。

客户名单里有Google、Mistral、Anthropic。2025年5月,Snorkel完成D轮融资,估值13亿好意思元。

Anthropic营收负责东谈主KateJensen线路,要把Claude的后劲皆备开释出来,得靠引入领域众人和东谈主类响应的新评估措施,Anthropic会连续和Snorkel这么的公司协作。

Snorkel、Scale、Mercor这些公司,曩昔被当成「标注平台」。如今它们成了前沿模子公司背后的隐形供应链。

给最贤惠的AI喂料的,便是这么一支分布大家、看不见的众人雄师。

几个巨头

抢的是合并种数据

不仅仅Anthropic在买确切工程材干。这场竞赛,几个重磅玩家都在参与,仅仅打法不同。

Cursor走的是家具数据这条路。

它官方写明:用户开启阴私模式后,代码毫不会被它或第三方用于磨砺;只须关闭阴私模式,它才可能用代码库数据、辅导词、剪辑活动、代码片断,来更始AI功能、磨砺模子。

Cursor的Tab模子每天产出越过10亿个剪辑字符,肯求量比第一版涨了约100倍。更进一步的Composer,通过强化学习(RL)磨砺,让模子在大批代码任务环境中学习调用剪辑、搜索等器具,处理更长周期的工程任务。

到最新的Composer2.5,干脆主攻需要数百步操作的长周期任务。

马斯克遴荐的是成本绑定/收购期权的方式。

本年2月,xAI并入SpaceX。4月底,SpaceX拿下了年内以600亿好意思元收购Cursor母公司Anysphere的权益,或者先付100亿好意思元作念深度协作。马斯克看中的恰是Cursor手里那份大家最活跃的确切开拓者活动数据。

5月25日,马斯克在X上布告,新一代基础模子GrokV9-Medium磨砺完成,参数1.5T,是刻下坐蓐模子的3倍。他成心点出,这照旧没加Cursor数据补训之前的收货,加完「编程材干会强许多」,模子展望6月中旬发布。

这么一来,V9会是第一个系统性地「吃过」确切开拓者活动数据的Grok。

OpenAI自后的Codex也走上了这条路。2025年发布的Codex由codex-1驱动,OpenAI称其是在确切编码任务上通过强化学习磨砺的,倡导是写出面对东谈主类立场、合适PR风气的代码,还能反复跑测试直到通过;每个任务跑在预装了你代码库的遏止沙箱里。

如今Codex已升级为OpenAI的agenticcoding平台,由其前沿编码模子驱动;据Axios报谈,每周用户已越过500万。

他们争夺的,其实是合并种东西:过程数据,仅仅旅途各不相易。

Anthropic先有模子,缺确切开拓现场的响应,就费钱请约1000名工程师,把软件工程过程拆成可学习的数据;

Cursor先有家具和确切用户活动,也有自研的Tab、Composer等编程模子。但比拟OpenAI、Anthropic,它更缺的是通用基础模子底座和大规模磨砺算力;

马斯克缺的亦然数据,干脆试图用几百亿好意思元去买一个连续产生开拓者活动数据的家具进口;

OpenAI模子、家具两端都不缺,于是我方搭沙箱,让模子在确切编码任务里通过强化学习一遍遍试错、测试、修正、迭代。

几家打法不同,同归殊涂,都在用越来越接近确切工程现场的数据,来磨砺我方的AI编程模子。

真确的护城河

是东谈主的试吃和判断

有一篇叫SWE-chat的论文,第一次大规模相聚了确切的智能体编码会话:6000段、越过6.3万条用户prompt、35.5万次器具调用。

它得出一个扎心的数字:智能体产出的代码,只须44%最终干涉了用户的提交里。有一半多的庆幸被东谈主删了、改了、推翻了。

SWE-chat实测:vibecoding已占41%的会话,但智能体写的代码只须44%最终干涉提交;用户在44%的交互轮次里通过改革、报错或中断来反推模子输出。

这评释,HumanEval那类老的基准测试(benchmark)也曾刷到填塞,光看跑分真义真义不大了。真确的战场,是确切开拓过程里那些反复、试错、推翻重来的数据。

模子越强,越要费钱去买东谈主类还没被替代的那部分东西:工程直观。

Anthropic花280好意思元一个任务,请来约1000名工程师作念A/B投票:这套看上去粗重的活儿,买的恰是这少许。

谁能把工程现场酿成模子能消化的数据德州app(中国)网下载,谁就合手住了干涉AI编程下一程的入场券。