LLMs 在医疗健康领域展现强大的语言理解与知识编码能力,Med-PaLM 等研究证实其在医学问答中的潜力。
然而,中医知识体系复杂——概念网络、辨证链条、方剂边界——通用模型难以直接胜任。
语言流畅 ≠ 事实可靠
直接结论 ≠ 可解释推理
SFT 提供回答结构和辨证推理范式
RAG 提供经典文本依据和方剂背景
二者互补,协同完成可信中医问答
"性质判定→证候推导→治法确立→方剂推荐"四步结构,1200条样本经格式/逻辑/安全三层检查
5部经典(内经/伤寒/金匮/温病/本草),8500条片段,BGE-large-zh-v1.5 + FAISS索引
提示词组装:角色设定+检索上下文+输出链条+安全约束,SFT提供推理结构,RAG提供事实锚点
六维度最高综合评分
SFT(4.52) / RAG(3.88)
Base 3.55 → SFT+RAG 4.85
SFT 贡献辨证链稳定性
Base 3.65 → SFT+RAG 4.80
RAG 贡献知识锚定能力
模型按要求输出完整辨证链
性质判定→证候推导→治法→方剂
模型绕过所有辨证环节
直接输出方剂名称——奖励劫持
1200条中医辨证链数据,三层质量检查
5部经典,8500条片段,事实锚定
推理结构+事实锚点互补,综合4.77
六维度+500条测试集+消融验证
低资源偏好优化的奖励劫持风险分析
为中医领域LLM问答系统的可解释设计、知识库接入及评测框架构建提供工程参考
结构化思维链微调让模型学会"性质判定→证候推导→治法确立→方剂推荐"的链式推理,CoT完整度从 3.55 提升至 4.85
本地古籍向量知识库在推理阶段为模型提供可检索的经典文本依据,事实一致性从 3.65 提升至 4.80
六维度综合评分 4.77,实现可解释性与事实准确性的最优平衡。DPO负面发现也提醒我们:对齐目标必须保护推理链完整度