Перейти к основному содержанию

Phi-3.5-MoE-instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

Описание

Phi-3.5-MoE-instruct is a mixture-of-experts model with ~42B total parameters (6.6B active) and a 128K context window. It excels at reasoning, math, coding, and multilingual tasks, outperforming larger dense models in many benchmarks. It underwent a thorough safety post-training process (SFT + DPO) and is licensed under MIT. This model is ideal for scenarios where efficiency and high performance are both required, particularly in multi-lingual or reasoning-intensive tasks.

Дата выхода
2024-08-23
Параметры
60.0B
Длина контекста
Модальности

Радар способностей

70
general
70
coding
70
reasoning
34
scienceоцен.
0
agents
0
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Reasoning21
84.0
LS

Оценки бенчмарков (LLM Stats)

Biology

GPQA36.8%Сам.

Code

RepoQA85.0%Сам.
HumanEval70.7%Сам.

Creativity

Social IQa78.0%Сам.
Arena Hard37.9%Сам.

Finance

MMLU78.9%Сам.
TruthfulQA77.5%Сам.
MMLU-Pro45.3%Сам.

General

ARC-C91.0%Сам.
OpenBookQA89.6%Сам.
PIQA88.6%Сам.
MBPP0.81 / 100Сам.
MMMLU69.9%Сам.

Language

BoolQ84.6%Сам.
MEGA XStoryCloze82.8%Сам.
Winogrande81.3%Сам.
BIG-Bench Hard79.1%Сам.
MEGA XCOPA76.6%Сам.
MEGA TyDi QA67.1%Сам.
MEGA MLQA65.3%Сам.
MEGA UDPOS60.4%Сам.
SQuALITY24.1%Сам.

Long Context

RULER87.1%Сам.
Qasper40.0%Сам.
GovReport26.4%Сам.
QMSum19.9%Сам.
SummScreenFD16.9%Сам.

Math

GSM8k88.7%Сам.
MATH59.5%Сам.
MGSM58.7%Сам.

Reasoning

HellaSwag83.8%Сам.

Индексы оценки AA

Нет данных AA оценки

Оценки категорий LLM Stats

Psychology
80
Code
70
Finance
70
General
70
Healthcare
70
Language
70
Legal
70
Math
70
Reasoning
70
Creativity
60
Long Context
60
Physics
60
Writing
40
Biology
40
Chemistry
40
Summarization
20

Цены

Нет данных о ценах

Скорость

Нет данных о скорости

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки