作用

Evaluation Server 提供一套完整的文本评估工具,支持多种常见的评估指标,用于在 pipeline 中对模型输出进行自动化评估。

参数说明

/images/yaml.svgservers/evaluation/parameter.yaml
metrics: [ 'acc', 'f1', 'em', 'coverem', 'rouge-l' ]
save_path: output/asqa.json
  • metrics:指定要计算的评估指标,可以同时计算多个
  • save_path:结果日志存储地址

工具说明

  • evaluate:对一组模型生成的答案进行评估,并将评估结果保存。

评测指标

指标名类型说明
EMfloatExact Match,预测与任一参考完全相同。
AccfloatAnswer 包含参考答案中的任一形式(宽松匹配)。
StringEMfloat针对多组答案的软匹配比例(常用于多选/嵌套 QA)。
CoverEMfloat参考答案是否完全被预测文本覆盖。
F1floatToken 级别 F1 得分。
Rouge_1float1-gram ROUGE-F1。
Rouge_2float2-gram ROUGE-F1。
Rouge_LfloatLongest Common Subsequence (LCS) based ROUGE。