metrics
:指定要计算的评估指标,可以同时计算多个save_path
:结果日志存储地址evaluate
:对一组模型生成的答案进行评估,并将评估结果保存。指标名 | 类型 | 说明 |
---|---|---|
EM | float | Exact Match,预测与任一参考完全相同。 |
Acc | float | Answer 包含参考答案中的任一形式(宽松匹配)。 |
StringEM | float | 针对多组答案的软匹配比例(常用于多选/嵌套 QA)。 |
CoverEM | float | 参考答案是否完全被预测文本覆盖。 |
F1 | float | Token 级别 F1 得分。 |
Rouge_1 | float | 1-gram ROUGE-F1。 |
Rouge_2 | float | 2-gram ROUGE-F1。 |
Rouge_L | float | Longest Common Subsequence (LCS) based ROUGE。 |