Skip to content

(不建议)微调后直接运行全量模型(建议直接看第4,5,6,7步,等转换为guff并量化完再跑)

指定自定义模型路径

bash
python infer_lora_chat.py --base_dir my-base-model --adapter_dir my-lora-adapter

使用合并后的模型

bash
python infer_lora_chat.py --merged true --adapter_dir my-lora-adapter

调整生成参数

bash
python infer_lora_chat.py --temperature 0.9 --top_p 0.95 --max_new_tokens 1024

使用自定义系统提示词

bash
python infer_lora_chat.py --system_prompt "你是一个乐于助人的AI助手。"

命令行参数说明

参数名称类型默认值描述
--base_dirstrqwen3-8b-base基础模型目录
--adapter_dirstrfinetune/models/qwen3-8b-qloraLoRA适配器目录
--mergedboolFalse如果为True,则从adapter_dir/merged加载合并后的完整权重
--system_promptstr清凤数字分身人设模型的系统提示词
--max_new_tokensint512生成的最大新token数量
--temperaturefloat0.7采样温度
--top_pfloat0.9Top-p采样参数
--trust_remote_codeboolTrue是否信任远程代码