Claude的新一代旗舰模型终于上线了。6月10日,Anthropic正式发布了Claude Fable 5和面向特定机构开放的Claude Mythos 5。这两款模型同属Mythos级股票配资推荐,共享同一个底层模型,能力高于Opus级。Mythos级是Anthropic迄今为止综合性能最高的大模型级别。

技术博客中提到,面向公众开放的Fable 5在几乎所有AI能力基准测试中处于顶尖水平,能够胜任软件工程、知识工作、视觉理解、科学研究等多个领域的复杂任务。与Opus 4.8、GPT 5.5和Gemini 3.1 Pro相比,Fable 5/Mythos 5表现出显著优势。这些模型可以轻松处理3D打印设计、复杂的策略游戏以及流体力学模拟等任务。

Mythos 5与Fable 5的主要区别在于安全措施。Fable 5在处理生物学、网络安全和前沿科研场景的部分敏感请求时,将自动降级到Opus 4.8响应。而Mythos 5则在某些领域移除了安全防护措施,被定位为“全球最强网络安全模型”。这款模型目前通过Anthropic与美国政府合作的Project Glasswing项目对外开放,并计划在未来通过更广泛的受信任访问计划扩展访问权限。

价格方面,Fable 5和Mythos 5的价格分别为每百万输入token 10美元(约合人民币67.7元)和每百万输出token 50美元(约合人民币338.6元),大约是Mythos Preview的一半。尽管如此,使用这些模型仍然非常昂贵。有用户反馈,在200美元/月的Claude Max套餐中,Fable 5仅用1分钟就消耗了约14%的5小时使用配额,并消耗约2%的周配额,相当于每分钟1美元左右。

Fable 5模型现已全面上线。即日起至6月22日,Pro、Max、Team和按座收费的企业版用户可免费使用。从6月23日起,Fable 5将从这些套餐中移除,之后需消耗积分才能使用。Anthropic表示,待容量充足后,会尽快将其恢复为订阅计划的标配功能,并可能视情况延长免费期。

Anthropic对新模型的命名也值得关注。Fable和Mythos沿用了此前的文学体裁命名方式,相较之前采用的Haiku、Sonnet、Opus,这些名字更为宏大,反映出其产品定位的调整,未来Claude承担的任务复杂度和规模可能会进一步提升。

Anthropic在其博客中特别强调了新模型的长期自主工作能力。在软件工程领域,参与早期测试的金融科技公司Stripe称,Fable 5将数月的工程工作压缩到了几天内。在一个5000万行的Ruby代码库中,该模型在一天内完成了全代码库的迁移,原本这一工作需要整个团队人工操作两个月才能完成。此外,Fable 5在编程基准测试FrontierCode中表现优异,仅用中等思考强度就超过了前沿模型。

不少网友已经在编程任务中验证了Fable 5的能力。例如,有人用Fable 5打造了一个高完成度的《我的世界》游戏,包括完整的建造和背包系统,游戏渲染没有bug,还添加了音效和背景音乐。完成这样一个任务,Fable 5大概花费了30美元。另一位网友对比了Fable 5和Opus 4.8的能力差异,在所有任务中,都能明显感觉到Fable 5更强。在近地物体监控网页上,Fable 5的设计更具美感,抓取的信息丰富度也更高。

在知识型工作方面,Fable 5在金融基准测试中获得了最高分数,并在基于文档的推理、图表和表格解读以及问题解决方面取得了显著提升。全球头部的自营交易公司和做市商IMC认为,Fable 5几乎全面超越了IMC的交易分析评估,包括事实查询、概念推理、根本原因分析和预期价值分析。

Fable 5也是一款视觉模型,能够看懂复杂的科学图表并仅靠一张截图复刻应用源代码。在执行视觉任务时,Fable 5所需要的辅助工具也变少了。在仅使用最小化、纯视觉的Harness时,Fable 5已经能够通关《宝可梦 火红》,而此前的Claude模型需要更复杂的辅助工具才能玩这款游戏。
Fable 5的记忆和长上下文能力也是一大亮点,它可以在长时间运行的任务中持续保持专注,并利用自身笔记改进输出。相比之下,Mythos 5则更适用于前沿研究。在药物设计中,蛋白质设计专家借助Mythos 5将部分环节的效率提升至约10倍。在一个案例中,Mythos 5自主完成了科学家通常需要亲自执行的全部任务,表现达到甚至超过了熟练的人类操作者。
在分子生物学领域,Mythos 5是首个能够持续提出新颖且有说服力的科学假设的模型。在与Opus级模型进行双盲对比评测时,科学家对Mythos所提假设的偏好率约为80%,已有多项假设进入实验验证环节。其中一项关于大肠杆菌某一蛋白质新机制的假设得到了一个独立研究团队近期发表成果的验证。
在基因组学方面,Mythos 5自主开展了为期一周多的原创性研究,汇集了横跨138个动物物种的数百万个单细胞数据,自行设计并训练了一个定制的机器学习模型,用于识别在亲缘关系甚远的物种中执行相同功能的细胞。在经验丰富的人类研究者指导下,Mythos 5训练出的模型超越了近期发表在《科学》期刊上的一个模型,而前者的参数量仅为后者的百分之一。团队计划在未来数月内发表这些成果。
随着模型能力的大幅度提升,Anthropic开始重新构建模型的安全体系。在面向公众开放的Fable 5中,Anthropic打造了安全分类器,三类请求会被路由到Opus 4.8。Anthropic的数据显示,大约5%的请求会被降级到Opus 4.8进行处理。在网络安全类任务中,Mythos级模型擅长发现和利用软件漏洞,因此它们可以大大简化网络攻击,降低实施成本。为了防止这些黑客技能被应用于网络攻击,Anthropic设计了网络安全分类器,应用于Fable 5。
Anthropic对这一分类器进行了大量测试,在1000小时的测试中,暂时没有团队找到通用的越狱方法。不过,Anthropic也承认完全防止越狱是基本不可能的,他们的目标是让越狱足够缓慢且昂贵,以便在大规模使用前监测到这些行为并及时阻止。在生物学和化学任务中,Anthropic此前已经会阻止生化武器相关的任务,但随着模型能力提升,一些通用类的生物学和化学研究也可能被用于危险用途。因此,目前Fable 5在这些领域的大部分请求都会被路由到Opus 4.8上。
Anthropic还对所谓“蒸馏”行为进行了限制,当用户的请求被标记为蒸馏行为时,也会被路由到Opus 4.8进行处理。此外,Anthropic要求企业客户将Mythos级型号的数据保存30天,这些数据不会被用于训练模型,但会被用于防范网络安全攻击和减少误报。
头部AI企业正把竞争重点转向真实任务的闭环交付能力。Anthropic希望强调,这一模型能独立完成复杂任务的能力。同时,在这一代Claude模型上股票配资推荐,算力成本与订阅模式之间的张力进一步加剧。顶级模型烧token的速度远超当前订阅制的承载能力,按量计费、混合计费模式乃至按结果计费的新模式可能会加速普及。这些新型商业化模式的探索也值得关注。
元鼎证券_智能投资导航——开启稳健理财新体验,欢迎前来了解!提示:本文来自互联网,不代表本网站观点。