get_data
签名
- 从本地文件加载评测样本,支持 .jsonl / .json / .parquet。
- 按
key_map将原始字段映射为统一输出键(如q_ls,gt_ls)。 - 支持样本打乱(
shuffle)与采样上限(limit)。
参数配置
| 参数 | 类型 | 说明 |
|---|---|---|
name | str | 评测集名称,仅用于日志与标识(示例:nq) |
path | str | 数据文件路径,支持 .jsonl、.json、.parquet |
key_map | dict | 字段映射表,将原始字段映射为工具输出键 |
key_map.q_ls | str | 问题字段名(如 question) |
key_map.gt_ls | str | 标准答案字段名(如 golden_answers,允许列表) |
shuffle | bool | 是否打乱样本顺序(默认 false) |
seed | int | 随机种子(shuffle=true 时生效) |
limit | int | 采样上限,-1 表示全部,正整数表示前 limit 条 |