毕设答辩 · 成都信息工程大学计算机学院

2026.05 · 01 / 10

BACHELOR THESIS DEFENSE

基于大模型的中医问答系统
的研究与应用

Research and Application of a LLM-Based TCM Question Answering System

艾涛 · 指导教师：冯翱教授

→ 键盘 ← → 翻页

BACKGROUND · 研究背景

大语言模型
× 中医问答

从固定规则检索
走向自然语言交互

LLMs 在医疗健康领域展现强大的语言理解与知识编码能力，Med-PaLM 等研究证实其在医学问答中的潜力。

然而，中医知识体系复杂——概念网络、辨证链条、方剂边界——通用模型难以直接胜任。

核心矛盾

语言流畅 ≠ 事实可靠
直接结论 ≠ 可解释推理

CHALLENGES · 研究问题

03 / 10

两大核心挑战

中医问答为何需要
专门的技术方案？

01 事实幻觉

生成内容
偏离经典

模型参数记忆不可靠，可能编造方剂组成、错配证候与治法、将保健建议写成治疗结论。中医经典知识未被有效利用。

方剂组成不准确
证候与治法不匹配
缺乏可核验的知识来源

02 黑盒推理

跳过辨证
直接结论

通用模型直接输出方剂建议，缺少"性质判定→证候推导→治法确立→方剂推荐"的辨证过程，答案难以解释和审查。

缺少中间推理步骤
无法审查判断依据
不符合中医辨证逻辑

APPROACH · 技术路线

04 / 10

CoT-SFT + RAG 协同方案

四阶段技术路线

01 CoT 数据构建结构化辨证链
1200条训练样本

02 监督微调 SFT Qwen3-8B + LoRA
学习辨证表达结构

03 RAG 知识库 5部经典古籍
8500条检索片段

04 SFT+RAG 融合推理结构+事实锚点
综合评分 4.77

ARCHITECTURE · 系统设计

05 / 10

原型系统总体架构

三层架构 · 四种配置

LAYER 01 · 数据层

数据准备

1200 条 CoT-SFT 训练样本
《黄帝内经》等 5 部经典古籍
清洗→切分→向量化→索引

FAISS · BGE-Large-ZH · ChromaDB

LAYER 02 · 模型层

训练与推理

Qwen3-8B + LoRA (r=16, α=32)
单卡 RTX 4090 24GB
4 种配置灵活切换对比

PEFT · vLLM · PyTorch 2.5

LAYER 03 · 应用层

交互与评测

Streamlit 前端演示界面
GPT-4o 多维自动评分
安全边界与日志追溯

Streamlit · OpenAI API · Logging

Base · 原始模型

SFT · CoT微调

RAG · 仅检索

SFT+RAG · 融合方案

METHOD · 核心方法

06 / 10

CoT-SFT + RAG 协同方法

三大核心模块

SFT 负责"怎么推理"
RAG 负责"依据从哪来"

会推理
有依据

SFT 提供回答结构和辨证推理范式
RAG 提供经典文本依据和方剂背景
二者互补，协同完成可信中医问答

01

CoT-SFT 数据构建

结构化中医思维链

"性质判定→证候推导→治法确立→方剂推荐"四步结构，1200条样本经格式/逻辑/安全三层检查

02

RAG 知识库

本地古籍向量检索

5部经典（内经/伤寒/金匮/温病/本草），8500条片段，BGE-large-zh-v1.5 + FAISS索引

03

融合推理

SFT+RAG 协同生成

提示词组装：角色设定+检索上下文+输出链条+安全约束，SFT提供推理结构，RAG提供事实锚点

RESULTS · 实验分析

07 / 10

多维评测
结果对比

在 500 条测试集上，GPT-4o 对六维度（准确性、事实一致性、CoT完整度、逻辑连贯性、安全性、可解释性）1-5 分制评分。SFT+RAG 综合评分 4.77，全面最优。

SFT+RAG 综合

4.77

六维度最高综合评分
SFT(4.52) / RAG(3.88)

CoT 完整度提升

+1.30

Base 3.55 → SFT+RAG 4.85
SFT 贡献辨证链稳定性

事实一致性提升

+1.15

Base 3.65 → SFT+RAG 4.80
RAG 贡献知识锚定能力

BOUNDARY · 方法边界

08 / 10

DPO 负面实验 · 奖励劫持风险

偏好优化为何被放弃？

SFT · 微调后

4.75

CoT 完整度

2%

直接出方率

模型按要求输出完整辨证链
性质判定→证候推导→治法→方剂

SFT+DPO · 偏好优化后

2.10

CoT 完整度 ↓56%

88%

直接出方率 ↑86%

模型绕过所有辨证环节
直接输出方剂名称——奖励劫持

低资源偏好对齐可能诱发"奖励劫持"：模型将"省略推理链"误学为更优策略。对于强调可解释辨证逻辑的中医问答系统，这意味着推理过程的实质性崩塌。

CONCLUSION · 总结

09 / 10

研究贡献与方法边界

五方面核心贡献

01

数据：结构化CoT-SFT

1200条中医辨证链数据，三层质量检查

02

知识：本地古籍RAG

5部经典，8500条片段，事实锚定

03

系统：SFT+RAG融合

推理结构+事实锚点互补，综合4.77

04

评测：多维LLM-as-Judge

六维度+500条测试集+消融验证

05

边界：DPO负面发现

低资源偏好优化的奖励劫持风险分析

为中医领域LLM问答系统的可解释设计、知识库接入及评测框架构建提供工程参考

SFT 教模型"怎么推理" · RAG 给回答"依据从哪里来"

→ SFT+RAG = 4.77

10 / 10

CLOSING

ACKNOWLEDGMENT

谢谢
Thank You

基于大模型的中医问答系统的研究与应用

艾涛 · 计算机科学与技术 2022051059

2026.05

TAKEAWAYS

03 POINTS

01

CoT-SFT 赋予辨证推理结构

结构化思维链微调让模型学会"性质判定→证候推导→治法确立→方剂推荐"的链式推理，CoT完整度从 3.55 提升至 4.85

02

RAG 为回答提供事实锚点

本地古籍向量知识库在推理阶段为模型提供可检索的经典文本依据，事实一致性从 3.65 提升至 4.80

03

SFT+RAG 融合方案综合最优

六维度综合评分 4.77，实现可解释性与事实准确性的最优平衡。DPO负面发现也提醒我们：对齐目标必须保护推理链完整度

→ 感谢各位老师批评指正 · Q&A

基于大模型的中医问答系统的研究与应用

大语言模型× 中医问答

中医问答为何需要专门的技术方案？

四阶段技术路线

三层架构 · 四种配置

三大核心模块

结构化中医思维链

本地古籍向量检索

SFT+RAG 协同生成

偏好优化为何被放弃？

五方面核心贡献

数据：结构化CoT-SFT

知识：本地古籍RAG

系统：SFT+RAG融合

评测：多维LLM-as-Judge

边界：DPO负面发现

谢谢Thank You

CoT-SFT 赋予辨证推理结构

RAG 为回答提供事实锚点

SFT+RAG 融合方案综合最优

基于大模型的中医问答系统
的研究与应用

大语言模型
× 中医问答

中医问答为何需要
专门的技术方案？

谢谢
Thank You