generation_init
签名
- 初始化推理后端与采样参数。
generate
签名
- 纯文本对话生成。
multimodal_generate
签名
- 文图多模态对话生成。
参数配置
| 参数 | 类型 | 说明 |
|---|---|---|
backend | str | 指定生成后端,可选 vllm、openai 或 hf(Transformers) |
backend_configs | dict | 各后端模型及运行环境配置 |
sampling_params | dict | 采样参数,用于控制生成多样性与长度 |
system_prompt | str | 全局系统提示,将作为 system 消息加入上下文 |
backend_configs 详细说明:
| 后端 | 参数 | 说明 |
|---|---|---|
| vllm | model_name_or_path | 模型名称或路径 |
gpu_ids | 使用的 GPU ID(如 "0,1") | |
gpu_memory_utilization | GPU 显存占用比例(0–1) | |
dtype | 数据类型(如 auto、bfloat16) | |
trust_remote_code | 是否信任远程代码 | |
| openai | model_name | OpenAI 模型名称或自建兼容模型 |
base_url | API 接口地址 | |
api_key | API 密钥 | |
concurrency | 最大并发请求数 | |
retries | API 重试次数 | |
base_delay | 每次重试基础等待时间(秒) | |
| hf | model_name_or_path | Transformers 模型路径 |
gpu_ids | GPU ID(同上) | |
trust_remote_code | 是否信任远程代码 | |
batch_size | 每次推理批量大小 |
sampling_params 详细说明:
| 参数 | 类型 | 说明 |
|---|---|---|
temperature | float | 控制随机性,越高生成越多样 |
top_p | float | nucleus sampling 阈值 |
max_tokens | int | 生成最大词元数 |
chat_template_kwargs | dict | 聊天模板额外参数 |
enable_thinking | bool | 是否启用思维链输出(如模型支持) |