model_name
:使用的生成模型名称或路径base_url
:vLLM 模型服务的 HTTP 接口地址port
:本地 vLLM 服务监听的端口gpu_ids
:指定 gpu 设备api_key
:调用模型服务所需的 API Keysampling_params
:vLLM 支持的生成参数,如 temperature、top-p、max_length等;initialize_local_vllm
:在本地启动一个 vLLM 模型服务,并等待其准备就绪,最终返回该服务的 base_url。generate
:接收 Prompt Server 提供的 prompt 输入,调用支持 OpenAI API 协议的 LLM 接口进行生成,最终返回回答字符串列表。