Evaluation Server

作用

Evaluation Server 提供一套完整的文本评估工具，支持多种常见的评估指标，用于在 pipeline 中对模型输出进行自动化评估。

servers/evaluation/parameter.yaml

metrics: [ 'acc', 'f1', 'em', 'coverem', 'rouge-l' ]
save_path: output/asqa.json

指标名	类型	说明
`EM`	float	Exact Match，预测与任一参考完全相同。
`Acc`	float	Answer 包含参考答案中的任一形式（宽松匹配）。
`StringEM`	float	针对多组答案的软匹配比例（常用于多选/嵌套 QA）。
`CoverEM`	float	参考答案是否完全被预测文本覆盖。
`F1`	float	Token 级别 F1 得分。
`Rouge_1`	float	1-gram ROUGE-F1。
`Rouge_2`	float	2-gram ROUGE-F1。
`Rouge_L`	float	Longest Common Subsequence (LCS) based ROUGE。