
9 月 24 日,2025 云栖大会开幕,阿里通义旗舰模子 Qwen3-Max 重磅亮相,性能高出 GPT5、Claude Opus 4 等,置身全球前三。Qwen3-Max 包括提醒(Instruct)和推理(Thinking)两大版块,其预览版已在 Chatbot Arena 排名榜上位列第三,郑再版性可望再度已毕冲突。
Qwen3-Max 为通义千问家眷中最大、最强的基础模子。该模子预覆按数据量达 36T tokens,总参数高出万亿,领有极强的 Coding 编程身手和 Agent 器具调用身手。在大模子用 Coding 惩处信得过全国问题的 SWE-Bench Verified 测试中,Instruct 版块斩获 69.6 分,位列全球第一梯队;在聚焦 Agent 器具调用身手的 Tau2-Bench 测试中,Qwen3-Max 获取冲突性的 74.8 分,高出 Claude Opus4 和 DeepSeek-V3.1。

【图说】:Qwen3-Max-Instrurct 测评分数
Qwen3-Max 的推理增强版块 Qwen3-Max-Thinking-Heavy 也展现出卓著性能,纠合器具调用和并行推理时代,其推理身手创下新高,尤其在聚焦数学推理的 AIME 25 和 HMMT 测试中,均达到冲突性的满分 100 分,为国内初次。Qwen3-Max 推理模子之是以大略获取优异得益,原因在于大模子在解数学题时懂得调遣器具,大略写代码作念题,同期,增多测试时的计较资源,也让模子弘扬变得更好。

【图说】:Qwen3-Max-Thinking-Heavy 测评分数
大模子预覆按旨趣 Scaling Law(限制化规章)以为,合手续地增长数据和参数限制,是通向 AGI 的可能旅途之一。由于当然数据的数目有限,现时有部分学者以为预覆按的 Scaling Law 行将靠拢上限,而 Qwen3-Max 的性能冲凸败露,连续增大数据、模子参数,依然能铸造出更强的模子,给以了大家更多的信心。现在,通义千问系列模子还是已毕从 0.5B 到超万亿的全尺寸遮掩,包含三百多个大模子,可知足不同场景的需求。
即日起2024欧洲杯官网入口,用户可在通义千问 QwenChat 上免费体验 Qwen3-Max,也可通过阿里云百真金不怕火平台调用 API 就业。
