作用
Generation Server 用于部署大语言模型(LLM),并通过接收 Prompt Server 提供的输入完成响应生成。当前使用 vLLM 作为模型部署后端。参数说明
model_name
:使用的生成模型名称或路径base_url
:vLLM 模型服务的 HTTP 接口地址port
:本地 vLLM 服务监听的端口gpu_ids
:指定 gpu 设备api_key
:调用模型服务所需的 API Keysampling_params
:vLLM 支持的生成参数,如 temperature、top-p、max_length等;
工具说明
initialize_local_vllm
:在本地启动一个 vLLM 模型服务,并等待其准备就绪,最终返回该服务的 base_url。generate
:接收 Prompt Server 提供的 prompt 输入,调用支持 OpenAI API 协议的 LLM 接口进行生成,最终返回回答字符串列表。