MirrorFlow

3. OpenAI Clean（LLM 清洗）

目标：用一个 OpenAI-compatible 的 Chat Completions API，对 openai-distill 生成的 SFT 做二次清洗：去技术/工具/搜索痕迹，并输出更稳定的训练集。

打开 setting.jsonc，修改：

注意：api_base 需要指向 .../v1/chat/completions（模板里就是这个格式）。

bash

python cli.py data openai-clean

输出会写到：

bash

python cli.py data openai-clean --max-samples 200

默认会读取 data_args.openai_sft_system_prompt 作为每条样本的 system prompt。