MiniCPM-SALA
Descripción
MiniCPM-SALA (Sparse Attention and Linear Attention) is a 9B hybrid model built from a MiniCPM-4.0 checkpoint via continual training (~2T tokens, 25% of training-from-scratch cost). It interleaves 25% InfLLM-V2 sparse attention and 75% Lightning Attention layers, achieving up to 3.5x inference speed over dense baselines at 256K tokens. With HyPE (Hybrid Positional Encoding) and NoPE in sparse layers, the model extrapolates to 2048K tokens despite a 520K training length, enabling 1M-token inference on consumer GPUs like the RTX 5090.
Radar de capacidades
Science usa un proxy de razonamiento cuando los benchmarks científicos dedicados no están disponibles.
Rankings
No hay datos de ranking disponibles
Puntuaciones de benchmarks (LLM Stats)
Code
Finance
General
Language
Long Context
Math
Índices de evaluación AA
No hay datos de evaluación AA disponibles
Puntuaciones por categoría LLM Stats
Precios
No hay datos de precios disponibles
Velocidad
No hay datos de velocidad disponibles
Proveedores disponibles
(Unidades internas LS)No hay datos de proveedores disponibles