str
): vLLM 加载的模型名称,用于 --served-model-name
str
): vLLM 加载的模型传入路径str
): 通过 vLLM 部署的 LLM 服务地址int
): vLLM 服务监听端口str | int
): 可见 GPU,例如 "0,1"
str
): 若提供,将通过 --api-key
启用 vLLM 接口鉴权Dict[str, Any]
): LLMs 采样参数,详见 vLLM SamplingParams 文档initialize_local_vllm
base_url
(形如 http://localhost:{port}/v1
)。
str
): vLLM 加载的模型传入路径str
): vLLM 加载的模型名称,用于 --served-model-name
int
): vLLM 服务监听端口str | int
): 可见 GPU,例如 "0,1"
str
): 若提供,将通过 --api-key
启用 vLLM 接口鉴权Dict[str, str]
): 返回 vLLM 服务地址,例如 "http://localhost:<port>/v1"
generate
List[Union[str, Dict[str, Any]]]
): 大模型输入str
): chat.completions.create
的 model
字段;需与 vLLM --served-model-name
一致str
): OpenAI 兼容服务的基址(如 http://localhost:8000/v1
)Dict[str, Any]
): 传给 chat.completions.create
的采样参数,例如 temperature
、max_tokens
、top_p
、n
、stop
等Dict[str, List[str]]
): 模型生成结果