str
): 嵌入模型路径或模型名str
): 语料文件路径(JSONL 格式)str
): 存储生成嵌入向量的 .npy
文件路径str
): 存储 Faiss 索引的 .index
文件路径dict
): 传递给 infinity_emb.EngineArgs
的模型配置
bool
): 是否启用 BetterTransformer 加速(默认 false
)str
): 向量池化方式(auto
, cls
, mean
)str
): 模型加载的设备(如 cuda
, cpu
)int
): 批量嵌入时的批大小str
): 可见 GPU 设置,例如 "0,1"
表示使用第 0 和第 1 张 GPUstr
): 查询前缀提示词bool
): 是否启用 GPU Faiss(失败则回退 CPU)int
): 返回检索文档数bool
): 若目标存在是否覆盖str
): 服务地址(可为 host:port
或完整 http://host:port
,未指定端口时默认 8080
)int
): 分批 add_with_ids
的批大小retriever_init
index_path
且存在,则加载 Faiss 索引(GPU/CPU)。
str
): Infinity 模型路径或名称(传给 EngineArgs
)str
): 语料文件(JSONL),每行需包含键 "contents"
Optional[str]
): 已建索引 .index
文件路径,存在则加载bool
): 是否启用 GPU Faiss(失败则回退 CPU)Optional[Dict[str, Any]]
): 传入 EngineArgs
的其它参数(如 dtype
, batch_size
等)Optional[str]
): 可见 GPU,如 "0,1"
;将写入 CUDA_VISIBLE_DEVICES
retriever_embed
.npy
。
Optional[str]
): 输出 .npy
文件路径;未提供时默认写到 <project_root>/output/embedding/embedding.npy
bool
): 若目标存在是否覆盖retriever_index
.npy
嵌入构建 Faiss Index(IndexIDMap2(FlatIP)
),支持分块写入与 GPU 构建。
str
): 编码好的 embedding 存储文件,.npy
文件Optional[str]
): 输出 .index
文件路径;未提供则默认 <project_root>/output/index/index.index
bool
): 存在是否覆盖int
): 分批 add_with_ids
的批大小retriever_search
List[str]
): 查询列表或单个字符串(自动封装为列表)int
): 返回条数str
): 为每个 query 添加的前缀提示(指令化查询)bool
): 是否用 OpenAI 生成查询向量;否则默认使用 Infinity 模型Dict[str, List[List[str]]]
): 检索到的 passageretriever_deploy_service
str
): 服务地址(可为 host:port
或完整 http://host:port
,未指定端口时默认 8080
)retriever_deploy_search
retriever_deploy_service
的 /search
接口,返回远端检索结果。
str
): 远端基础地址List[str]
): 查询列表或单个字符串(自动封装为列表)int
): 返回条数str
): 为每个 query 添加的前缀提示(指令化查询)Dict[str, List[List[str]]]
): 检索到的 passage