跳轉到主要內容

Phi-3.5-mini-instruct

MicrosoftPhiOpen WeightMIT · Commercial OK

描述

Phi-3.5-mini-instruct is a 3.8B-parameter model that supports up to 128K context tokens, with improved multilingual capabilities across over 20 languages. It underwent additional training and safety post-training to enhance instruction-following, reasoning, math, and code generation. Ideal for environments with memory or latency constraints, it uses an MIT license.

發布日期
2024-08-23
參數規模
3.8B
上下文長度
支援模態
text

能力雷達圖

60
general
60
coding
60
reasoning
26
science估算
0
agents
0
multimodal

Science 在缺少專門科學評測時使用推理能力代理估算。

排行榜排名

領域#排名分數來源
推理能力51
69.0
LS

基準測試分數 (LLM Stats)

Biology

GPQA30.4%自報

Code

RepoQA77.0%自報
HumanEval62.8%自報

Creativity

Social IQa74.7%自報
Arena Hard37.0%自報

Finance

MMLU69.0%自報
TruthfulQA64.0%自報
MMLU-Pro47.4%自報

General

ARC-C84.6%自報
PIQA81.0%自報
OpenBookQA79.2%自報
MBPP0.70 / 100自報
MMMLU55.4%自報

Language

BoolQ78.0%自報
MEGA XStoryCloze73.5%自報
BIG-Bench Hard69.0%自報
Winogrande68.5%自報
MEGA XCOPA63.1%自報
MEGA TyDi QA62.2%自報
MEGA MLQA61.7%自報
MEGA UDPOS46.5%自報
SQuALITY24.3%自報

Long Context

RULER84.1%自報
Qasper41.9%自報
GovReport25.9%自報
QMSum21.3%自報
SummScreenFD16.0%自報

Math

GSM8k86.2%自報
MATH48.5%自報
MGSM47.9%自報

Reasoning

HellaSwag69.4%自報

AA 評測指數

暫無 AA 評測資料

LLM Stats 分類評分

Psychology
70
Reasoning
70
Code
60
Creativity
60
Finance
60
General
60
Healthcare
60
Language
60
Legal
60
Math
60
Physics
60
Long Context
50
Writing
40
Biology
30
Chemistry
30
Summarization
20

定價

暫無定價資料

速度

暫無速度資料

可用提供商

(LS 內部計價單位)

暫無提供商資料

外部連結