Qwen3 235B A22B 2507 (Reasoning)

AlibabaQwenОткрытые весаApache 2.0 · Коммерческое использование

Описание

Qwen3-235B-A22B-Thinking-2507 is a state-of-the-art thinking-enabled Mixture-of-Experts (MoE) model with 235B total parameters (22B activated). It features 94 layers, 128 experts (8 activated), and supports 262K native context length. This version delivers significantly improved reasoning performance, achieving state-of-the-art results among open-source thinking models on logical reasoning, mathematics, science, coding, and academic benchmarks. Key enhancements include markedly better general capabilities (instruction following, tool usage, text generation), enhanced 256K long-context understanding, and increased thinking depth. The model supports only thinking mode with automatic <think> tag inclusion.

Дата выхода

2025-07-25

Параметры

235.0B

Длина контекста

262K

Модальности

text

Радар способностей

general

coding

reasoning

scienceоцен.

agents

multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен	#Место	Оценка	Источник
Агентные возможности	9	72.0	LS
Рейтинг кодинга	101	66.0	AA
Общий рейтинг	164	55.0	AA
Математическое мышление	19	95.0	AA
Рассуждения	103	33.0	LS
Наука	118	59.0	AA

Оценки бенчмарков (LLM Stats)

Agents

BFCL-v3

71.9%Сам.

Biology

GPQA

81.1%Сам.

Chemistry

SuperGPQA

64.9%Сам.

Code

CFEval

2134.00 / 10000Сам.

Communication

WritingBench

88.3%Сам.

Multi-IF

80.6%Сам.

Tau2 Retail

71.9%Сам.

TAU-bench Retail

67.8%Сам.

Tau2 Airline

58.0%Сам.

TAU-bench Airline

46.0%Сам.

Tau2 Telecom

45.6%Сам.

Creativity

Creative Writing v3

86.1%Сам.

Arena-Hard v2

79.7%Сам.

Finance

MMLU-Pro

84.4%Сам.

MMLU-ProX

81.0%Сам.

General

MMLU-Redux

93.8%Сам.

IFEval

87.8%Сам.

Include

81.0%Сам.

LiveBench 20241125

78.4%Сам.

LiveCodeBench v6

74.1%Сам.

Math

AIME 2025

92.3%Сам.

HMMT25

83.9%Сам.

PolyMATH

60.1%Сам.

Humanity's Last Exam

18.2%Сам.

Reasoning

OJBench

32.5%Сам.

Индексы оценки AA

Math Index

91.0

Intelligence Index

22.3

Math 500

1.0

Aime

0.9

Aime 25

0.9

Mmlu Pro

0.8

Gpqa

0.8

Livecodebench

0.8

Lcr

0.7

Tau2

0.5

Ifbench

0.5

Scicode

0.4

Hle

0.1

Terminalbench Hard

0.1

Оценки категорий LLM Stats

Instruction Following

Language

Legal

Structured Output

Finance

General

Healthcare

Biology

Creativity

Writing

Math

Physics

Reasoning

Agents

Chemistry

Communication

Multimodal

Spatial Reasoning

Economics

Tool Calling

Vision

Цены

Цена ввода$0.4 / 1M токенов

Цена вывода$2.15 / 1M токенов

Смешанная цена (3:1)$0.838 / 1M токенов

Скорость

Токенов/сек82.0

Задержка первого токена1.18s

Время до первого ответа25.58s

Рейтинг цен провайдеров

4 провайдеров

Самый дешевый: Amazon BedrockСамый дорогой: Nebius Token Factory

ПровайдерВводВывод

1Amazon BedrockСамый дешевый

$0.22

$0.88

2Vercel AI Gateway

$0.22

$0.88

3AlibabaОсновной

$0.4

$2.15

4Nebius Token Factory

$0.5

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки

LLM Stats Artificial Analysis