Qwen3 VL 8B (Reasoning)

AlibabaQwenОткрытые весаApache 2.0 · Коммерческое использование

Описание

Qwen3-VL is a large multimodal model that unifies vision, language, and reasoning to achieve human-level perception and cognition across text, images, and video. Built on a 235B-parameter architecture, it integrates early joint training of visual and textual modalities for strong language grounding. The model supports up to a 1 million-token context window and excels at visual understanding, spatial reasoning, long video comprehension, and tool-based interaction. It can generate code from images, perform precise 2D/3D object grounding, and operate digital interfaces like a visual agent. The “Instruct” version rivals Gemini 2.5 Pro in perception benchmarks, while the “Thinking” version leads in multimodal reasoning and STEM tasks. With multilingual OCR, creative writing, and fine-grained scene interpretation, Qwen3-VL establishes a new open-source frontier for integrated vision-language intelligence.

Дата выхода

2025-10-14

Параметры

9.0B

Длина контекста

131K

Модальности

image, text

Радар способностей

general

coding

reasoning

scienceоцен.

agents

100

multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен	#Место	Оценка	Источник
Агентные возможности	83	51.0	LS
Рейтинг кодинга	309	28.0	AA
Общий рейтинг	312	35.0	AA
Математическое мышление	262	31.0	AA
Мультимодальный рейтинг	51	75.0	LS
Рассуждения	81	54.0	LS
Наука	358	32.0	AA

Оценки бенчмарков (LLM Stats)

3d

BLINK

68.7%Сам.

Agents

BFCL-v3

63.0%Сам.

OSWorld

33.9%Сам.

Biology

GPQA

69.9%Сам.

Chemistry

SuperGPQA

51.2%Сам.

Communication

MM-MT-Bench

8.00 / 100Сам.

WritingBench

85.5%Сам.

Multi-IF

75.1%Сам.

Creativity

Creative Writing v3

82.4%Сам.

Arena-Hard v2

51.1%Сам.

Factuality

SimpleQA

49.6%Сам.

Finance

MMLU

85.2%Сам.

MMLU-Pro

77.3%Сам.

MMLU-ProX

70.7%Сам.

General

MMLU-Redux

88.8%Сам.

IFEval

83.2%Сам.

MMStar

75.3%Сам.

MLVU-M

75.1%Сам.

MMMU (val)

74.1%Сам.

LiveBench 20241125

69.8%Сам.

Include

69.5%Сам.

MMMU-Pro

60.4%Сам.

LiveCodeBench v6

58.6%Сам.

Grounding

ScreenSpot

93.6%Сам.

ScreenSpot Pro

46.6%Сам.

Healthcare

VideoMMMU

72.8%Сам.

Image To Text

OCRBench

81.9%Сам.

OCRBench-V2 (en)

63.9%Сам.

OCRBench-V2 (zh)

59.2%Сам.

Language

CharadesSTA

59.9%Сам.

Long Context

LVBench

55.8%Сам.

Math

MathVista-Mini

81.4%Сам.

AIME 2025

80.3%Сам.

MathVision

62.7%Сам.

HMMT25

60.6%Сам.

PolyMATH

47.5%Сам.

Multimodal

DocVQAtest

95.3%Сам.

MMBench-V1.1

87.5%Сам.

InfoVQAtest

86.0%Сам.

CharXiv-D

85.9%Сам.

AI2D

84.9%Сам.

MuirBench

76.8%Сам.

CC-OCR

76.3%Сам.

Video-MME

71.8%Сам.

MVBench

69.0%Сам.

CharXiv-R

53.0%Сам.

Reasoning

Hallusion Bench

65.4%Сам.

ERQA

46.8%Сам.

Spatial Reasoning

RealWorldQA

73.5%Сам.

Vision

ODinW

39.8%Сам.

Индексы оценки AA

Math Index

30.7

Intelligence Index

10.6

Mmlu Pro

0.7

Gpqa

0.6

Ifbench

0.4

Livecodebench

0.4

Lcr

0.3

Aime 25

0.3

Tau2

0.2

Scicode

0.2

Terminalbench Hard

0.0

Hle

0.0

Оценки категорий LLM Stats

Communication

Multimodal

100

Instruction Following

Language

Structured Output

Text-to-image

Image To Text

Legal

Math

Reasoning

Finance

General

Grounding

Healthcare

Biology

Creativity

Vision

Writing

Long Context

Physics

Spatial Reasoning

Chemistry

Tool Calling

Video

Factuality

Agents

Economics

Цены

Цена ввода$0.18 / 1M токенов

Цена вывода$2.1 / 1M токенов

Смешанная цена (3:1)$0.66 / 1M токенов

Скорость

Токенов/сек132.1

Задержка первого токена1.14s

Время до первого ответа16.28s

Рейтинг цен провайдеров

6 провайдеров

Самый дешевый: DeepInfraСамый дорогой: SiliconFlow

ПровайдерВводВывод

1DeepInfraСамый дешевый

2OpenRouter

$0.117

$1.365

3Kilo Gateway

$0.117

$1.365

4AlibabaОсновной

$0.18

$2.1

5SiliconFlow (China)

$0.18

6SiliconFlow

$0.18

Сравнение цен разных API-провайдеров для этой модели.

Внешние ссылки

LLM Stats Artificial Analysis