DeepSeek-V2.5 (Dec '24)

DeepSeekDeepSeekOpen Weightdeepseek

Descripción

DeepSeek-V2.5 is an upgraded version that combines DeepSeek-V2-Chat and DeepSeek-Coder-V2-Instruct, integrating general and coding abilities. It better aligns with human preferences and has been optimized in various aspects, including writing and instruction following.

Fecha de lanzamiento

2024-12-10

Parámetros

236.0B

Longitud del contexto

—

Modalidades

text

Radar de capacidades

general

coding

reasoning

scienceest.

agents

multimodal

Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.

Rankings

Dominio	#Posición	Puntuación	Fuente
Ranking general	505	10.0	AA
Razonamiento matemático	104	75.0	AA

Puntuaciones de benchmarks (LLM Stats)

Code

HumanEval

89.0%Aut.

Aider

72.2%Aut.

SWE-Bench Verified

16.8%Aut.

Communication

MT-Bench

0.90 / 100Aut.

Creativity

AlignBench

80.4%Aut.

Arena Hard

76.2%Aut.

AlpacaEval 2.0

50.5%Aut.

Finance

MMLU

80.4%Aut.

General

DS-FIM-Eval

78.3%Aut.

LiveCodeBench(01-09)

41.8%Aut.

Language

BBH

84.3%Aut.

Math

GSM8k

95.1%Aut.

MATH

74.7%Aut.

Reasoning

HumanEval-Mul

73.8%Aut.

DS-Arena-Code

63.1%Aut.

Índices de evaluación AA

Intelligence Index

6.8

Math 500

0.8

Puntuaciones por categoría LLM Stats

Roleplay

Communication

Language

Legal

Math

Finance

General

Healthcare

Reasoning

Creativity

Writing

Code

Frontend Development

Precios

Precio de entradaGratis

Precio de salidaGratis

Precio mixto (3:1)Gratis

Velocidad

Tokens/seg0.0

Retraso del primer token0.00s

Tiempo hasta la respuesta0.00s

Ranking de Precios por Proveedor

No hay datos de proveedores disponibles

Fuentes externas

LLM Stats Artificial Analysis