メインコンテンツへスキップ

Phi-3.5-MoE-instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

説明

Phi-3.5-MoE-instruct is a mixture-of-experts model with ~42B total parameters (6.6B active) and a 128K context window. It excels at reasoning, math, coding, and multilingual tasks, outperforming larger dense models in many benchmarks. It underwent a thorough safety post-training process (SFT + DPO) and is licensed under MIT. This model is ideal for scenarios where efficiency and high performance are both required, particularly in multi-lingual or reasoning-intensive tasks.

リリース日
2024-08-23
パラメータ
60.0B
コンテキスト長
モダリティ

能力レーダー

70
general
70
coding
70
reasoning
34
science推定
0
agents
0
multimodal

専門的な科学ベンチマークが利用できない場合、Scienceは推論プロキシを使用して推定します。

ランキング

ドメイン#順位スコアソース
Reasoning21
84.0
LS

ベンチマークスコア (LLM Stats)

Biology

GPQA36.8%自己申告

Code

RepoQA85.0%自己申告
HumanEval70.7%自己申告

Creativity

Social IQa78.0%自己申告
Arena Hard37.9%自己申告

Finance

MMLU78.9%自己申告
TruthfulQA77.5%自己申告
MMLU-Pro45.3%自己申告

General

ARC-C91.0%自己申告
OpenBookQA89.6%自己申告
PIQA88.6%自己申告
MBPP0.81 / 100自己申告
MMMLU69.9%自己申告

Language

BoolQ84.6%自己申告
MEGA XStoryCloze82.8%自己申告
Winogrande81.3%自己申告
BIG-Bench Hard79.1%自己申告
MEGA XCOPA76.6%自己申告
MEGA TyDi QA67.1%自己申告
MEGA MLQA65.3%自己申告
MEGA UDPOS60.4%自己申告
SQuALITY24.1%自己申告

Long Context

RULER87.1%自己申告
Qasper40.0%自己申告
GovReport26.4%自己申告
QMSum19.9%自己申告
SummScreenFD16.9%自己申告

Math

GSM8k88.7%自己申告
MATH59.5%自己申告
MGSM58.7%自己申告

Reasoning

HellaSwag83.8%自己申告

AA評価指数

AA評価データがありません

LLM Statsカテゴリスコア

Psychology
80
Code
70
Finance
70
General
70
Healthcare
70
Language
70
Legal
70
Math
70
Reasoning
70
Creativity
60
Long Context
60
Physics
60
Writing
40
Biology
40
Chemistry
40
Summarization
20

価格設定

価格データがありません

速度

速度データがありません

利用可能なプロバイダー

(LS内部単位)

プロバイダーデータがありません

外部リンク