跳转到主要内容

Kimi Linear 48B A3B Instruct

KimiKimi

发布日期

2025-10-30

参数规模

—

上下文长度

262K

支持模态

image, text, video

能力雷达图

23

general

34

coding

37

reasoning

26

science估算

50

agents

80

multimodal

Science 在缺少专门科学评测时使用推理能力代理估算。

排行榜排名

领域	#排名	分数	来源
代码能力榜	285	31.0	AA
通用能力榜	432	22.0	AA
数学推理	235	37.0	AA
科学能力	412	24.0	AA

基准测试分数 (LLM Stats)

Agents

WideSearch

79.0%自报

DeepSearchQA

77.1%自报

BrowseComp

74.9%自报

PaperBench

63.5%自报

Terminal-Bench 2.0

50.8%自报

SWE-Bench Pro

50.7%自报

CyberGym

41.3%自报

FrontierSWE

26.0%自报

Biology

GPQA

87.6%自报

SciCode

48.7%自报

Code

SWE-Bench Verified

76.8%自报

SWE-bench Multilingual

73.0%自报

OJBench (C++)

57.4%自报

Economics

FinSearchComp T2&T3

67.8%自报

Finance

MMLU-Pro

87.1%自报

General

LiveCodeBench v6

85.0%自报

MMMU-Pro

78.5%自报

SimpleVQA

0.71 / 100自报

LiveBench

69.1%自报

LongBench v2

61.0%自报

Healthcare

VideoMMMU

86.6%自报

Image To Text

OCRBench

92.3%自报

Long Context

LongVideoBench

79.8%自报

LVBench

75.9%自报

AA-LCR

70.0%自报

Math

AIME 2025

96.1%自报

HMMT 2025

95.4%自报

MathVista-Mini

90.1%自报

MathVision

84.2%自报

IMO-AnswerBench

81.8%自报

Humanity's Last Exam

50.2%自报

Multimodal

InfoVQAtest

92.6%自报

OmniDocBench 1.5

88.8%自报

Video-MME

87.4%自报

MMVU

80.4%自报

CharXiv-R

77.5%自报

MotionBench

70.4%自报

WorldVQA

46.3%自报

ZEROBench

0.11 / 100自报

Reasoning

Seal-0

57.4%自报

AA 评测指数

Math Index

36.3

Intelligence Index

8.5

Mmlu Pro

0.6

Gpqa

0.4

Livecodebench

0.4

Aime 25

0.4

Ifbench

0.3

Lcr

0.3

Scicode

0.2

Terminalbench Hard

0.1

Hle

0.0

Tau2

0.0

LLM Stats 分类评分

Language

90

Legal

90

Finance

90

Image To Text

80

Long Context

80

Math

80

Multimodal

80

Frontend Development

80

Video

80

Vision

80

Physics

70

Reasoning

70

Search

70

Structured Output

70

General

70

Healthcare

70

Biology

70

Chemistry

70

Agents

60

Code

50

Tool Calling

50

Safety

40

定价

输入价格免费

输出价格免费

混合价格(3:1)免费

缓存读取价格$0.1 / 1M tokens

速度

Tokens/秒0.0

首Token延迟0.00s

首回答延迟0.00s

供应商价格排行

暂无提供商数据

外部链接

Artificial Analysis