Перейти к основному содержанию

Phi-3.5-mini-instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

Описание

Phi-3.5-mini-instruct is a 3.8B-parameter model that supports up to 128K context tokens, with improved multilingual capabilities across over 20 languages. It underwent additional training and safety post-training to enhance instruction-following, reasoning, math, and code generation. Ideal for environments with memory or latency constraints, it uses an MIT license.

Дата выхода
2024-08-23
Параметры
3.8B
Длина контекста
Модальности
text

Радар способностей

60
general
60
coding
60
reasoning
26
scienceоцен.
0
agents
0
multimodal

Science использует прокси на основе рассуждений, когда специализированные научные бенчмарки недоступны.

Рейтинги

Домен#МестоОценкаИсточник
Reasoning51
69.0
LS

Оценки бенчмарков (LLM Stats)

Biology

GPQA30.4%Сам.

Code

RepoQA77.0%Сам.
HumanEval62.8%Сам.

Creativity

Social IQa74.7%Сам.
Arena Hard37.0%Сам.

Finance

MMLU69.0%Сам.
TruthfulQA64.0%Сам.
MMLU-Pro47.4%Сам.

General

ARC-C84.6%Сам.
PIQA81.0%Сам.
OpenBookQA79.2%Сам.
MBPP0.70 / 100Сам.
MMMLU55.4%Сам.

Language

BoolQ78.0%Сам.
MEGA XStoryCloze73.5%Сам.
BIG-Bench Hard69.0%Сам.
Winogrande68.5%Сам.
MEGA XCOPA63.1%Сам.
MEGA TyDi QA62.2%Сам.
MEGA MLQA61.7%Сам.
MEGA UDPOS46.5%Сам.
SQuALITY24.3%Сам.

Long Context

RULER84.1%Сам.
Qasper41.9%Сам.
GovReport25.9%Сам.
QMSum21.3%Сам.
SummScreenFD16.0%Сам.

Math

GSM8k86.2%Сам.
MATH48.5%Сам.
MGSM47.9%Сам.

Reasoning

HellaSwag69.4%Сам.

Индексы оценки AA

Нет данных AA оценки

Оценки категорий LLM Stats

Psychology
70
Reasoning
70
Code
60
Creativity
60
Finance
60
General
60
Healthcare
60
Language
60
Legal
60
Math
60
Physics
60
Long Context
50
Writing
40
Biology
30
Chemistry
30
Summarization
20

Цены

Нет данных о ценах

Скорость

Нет данных о скорости

Доступные провайдеры

(Внутренние единицы LS)

Нет данных провайдеров

Внешние ссылки