作用
Evaluation Server 提供一套完整的文本评估工具,支持多种常见的评估指标,用于在 pipeline 中对模型输出进行自动化评估。参数说明
metrics
:指定要计算的评估指标,可以同时计算多个save_path
:结果日志存储地址
工具说明
evaluate
:对一组模型生成的答案进行评估,并将评估结果保存。
评测指标
指标名 | 类型 | 说明 |
---|---|---|
EM | float | Exact Match,预测与任一参考完全相同。 |
Acc | float | Answer 包含参考答案中的任一形式(宽松匹配)。 |
StringEM | float | 针对多组答案的软匹配比例(常用于多选/嵌套 QA)。 |
CoverEM | float | 参考答案是否完全被预测文本覆盖。 |
F1 | float | Token 级别 F1 得分。 |
Rouge_1 | float | 1-gram ROUGE-F1。 |
Rouge_2 | float | 2-gram ROUGE-F1。 |
Rouge_L | float | Longest Common Subsequence (LCS) based ROUGE。 |