GPT-4.1
OpenAIGPTProprietary
विवरण
GPT-4.1 is OpenAI's latest and most advanced flagship model, significantly improving upon GPT-4 Turbo in performance across benchmarks, speed, and cost-effectiveness.
रिलीज़ तिथि
2025-04-14
पैरामीटर
—
संदर्भ लंबाई
1.0M
मोडैलिटीज़
file, image, text
क्षमता रडार
39
general
32
coding
49
reasoning
44
scienceअनुमानित
60
agents
85
multimodal
समर्पित विज्ञान बेंचमार्क उपलब्ध न होने पर Science तर्क प्रॉक्सी का उपयोग करके अनुमान लगाता है।
रैंकिंग
| डोमेन | #रैंक | स्कोर | स्रोत |
|---|---|---|---|
| Code Ranking | 177 | 45.0 | AA |
| General Ranking | 181 | 52.0 | AA |
| Math Reasoning | 188 | 48.0 | AA |
| Multimodal Ranking | 53 | 74.0 | LS |
| Reasoning | 63 | 60.0 | LS |
| Science | 206 | 47.0 | AA |
बेंचमार्क स्कोर (LLM Stats)
Biology
GPQA
66.3%स्वयं
Code
SWE-Bench Verified
54.6%स्वयं
Aider-Polyglot Edit
52.9%स्वयं
Aider-Polyglot
51.6%स्वयं
Communication
Multi-IF
70.8%स्वयं
TAU-bench Retail
68.0%स्वयं
TAU-bench Airline
49.4%स्वयं
Multi-Challenge
38.3%स्वयं
Finance
MMLU
90.2%स्वयं
General
IFEval
87.4%स्वयं
MMMLU
87.3%स्वयं
MMMU
74.8%स्वयं
Internal API instruction following (hard)
49.1%स्वयं
Language
COLLIE
65.8%स्वयं
Long Context
ComplexFuncBench
65.5%स्वयं
OpenAI-MRCR: 2 needle 128k
57.2%स्वयं
OpenAI-MRCR: 2 needle 1M
46.3%स्वयं
Graphwalks parents >128k
25.0%स्वयं
Graphwalks BFS >128k
19.0%स्वयं
Math
MathVista
72.2%स्वयं
AIME 2024
48.1%स्वयं
AIME 2025
46.4%स्वयं
HMMT 2025
28.9%स्वयं
Humanity's Last Exam
5.4%स्वयं
Multimodal
CharXiv-D
87.9%स्वयं
Video-MME (long, no subtitles)
72.0%स्वयं
CharXiv-R
56.7%स्वयं
Reasoning
Graphwalks BFS <128k
61.7%स्वयं
Graphwalks parents <128k
58.0%स्वयं
AA मूल्यांकन सूचकांक
Math Index34.7
Intelligence Index26.3
Coding Index21.8
Math 5000.9
Mmlu Pro0.8
Gpqa0.7
Lcr0.6
Tau20.5
Livecodebench0.5
Aime0.4
Ifbench0.4
Scicode0.4
Aime 250.3
Terminalbench Hard0.1
Hle0.0
LLM Stats श्रेणी स्कोर
Finance90
Legal90
Healthcare80
Instruction Following80
Language80
Structured Output70
Writing70
Biology70
Chemistry70
General70
Multimodal70
Physics70
Tool Calling60
Vision60
Communication60
Reasoning60
Code50
Frontend Development50
Math50
Spatial Reasoning40
Long Context40
मूल्य निर्धारण
इनपुट मूल्य$2 / 1M tokens
आउटपुट मूल्य$8 / 1M tokens
मिश्रित मूल्य (3:1)$3.5 / 1M tokens
गति
टोकन/सेकंड108.1 tokens/s
पहले टोकन में देरी0.55s
पहले उत्तर में देरी0.55s
उपलब्ध प्रदाता
(LS आंतरिक इकाइयाँ)| प्रदाता | इनपुट मूल्य | आउटपुट मूल्य |
|---|---|---|
| OpenAI | 2.0M | 8.0M |