← → 翻页 · B 静态 · ESC 索引
毕设答辩 · 成都信息工程大学 计算机学院
2026.05 · 01 / 10
BACHELOR THESIS DEFENSE

基于大模型的中医问答系统
研究与应用

Research and Application of a LLM-Based TCM Question Answering System
艾涛 · 指导教师:冯翱 教授
→ 键盘 ← → 翻页
BACKGROUND · 研究背景

大语言模型
× 中医问答

从固定规则检索
走向自然语言交互

LLMs 在医疗健康领域展现强大的语言理解与知识编码能力,Med-PaLM 等研究证实其在医学问答中的潜力。

然而,中医知识体系复杂——概念网络、辨证链条、方剂边界——通用模型难以直接胜任。

核心矛盾

语言流畅 ≠ 事实可靠
直接结论 ≠ 可解释推理

CHALLENGES · 研究问题
03 / 10
两大核心挑战

中医问答为何需要
专门的技术方案?

01 事实幻觉
生成内容
偏离经典
模型参数记忆不可靠,可能编造方剂组成、错配证候与治法、将保健建议写成治疗结论。中医经典知识未被有效利用。
  • 方剂组成不准确
  • 证候与治法不匹配
  • 缺乏可核验的知识来源
02 黑盒推理
跳过辨证
直接结论
通用模型直接输出方剂建议,缺少"性质判定→证候推导→治法确立→方剂推荐"的辨证过程,答案难以解释和审查。
  • 缺少中间推理步骤
  • 无法审查判断依据
  • 不符合中医辨证逻辑
APPROACH · 技术路线
04 / 10
CoT-SFT + RAG 协同方案

四阶段技术路线

01 CoT 数据构建 结构化辨证链
1200条训练样本
02 监督微调 SFT Qwen3-8B + LoRA
学习辨证表达结构
03 RAG 知识库 5部经典古籍
8500条检索片段
04 SFT+RAG 融合 推理结构+事实锚点
综合评分 4.77
ARCHITECTURE · 系统设计
05 / 10
原型系统总体架构

三层架构 · 四种配置

LAYER 01 · 数据层
数据准备
1200 条 CoT-SFT 训练样本
《黄帝内经》等 5 部经典古籍
清洗→切分→向量化→索引
FAISS · BGE-Large-ZH · ChromaDB
LAYER 02 · 模型层
训练与推理
Qwen3-8B + LoRA (r=16, α=32)
单卡 RTX 4090 24GB
4 种配置灵活切换对比
PEFT · vLLM · PyTorch 2.5
LAYER 03 · 应用层
交互与评测
Streamlit 前端演示界面
GPT-4o 多维自动评分
安全边界与日志追溯
Streamlit · OpenAI API · Logging
Base · 原始模型
SFT · CoT微调
RAG · 仅检索
SFT+RAG · 融合方案
METHOD · 核心方法
06 / 10
CoT-SFT + RAG 协同方法

三大核心模块

SFT 负责"怎么推理"
RAG 负责"依据从哪来"
会推理
有依据

SFT 提供回答结构和辨证推理范式
RAG 提供经典文本依据和方剂背景
二者互补,协同完成可信中医问答

01
CoT-SFT 数据构建

结构化中医思维链

"性质判定→证候推导→治法确立→方剂推荐"四步结构,1200条样本经格式/逻辑/安全三层检查

02
RAG 知识库

本地古籍向量检索

5部经典(内经/伤寒/金匮/温病/本草),8500条片段,BGE-large-zh-v1.5 + FAISS索引

03
融合推理

SFT+RAG 协同生成

提示词组装:角色设定+检索上下文+输出链条+安全约束,SFT提供推理结构,RAG提供事实锚点

主实验多维评分对比雷达图
RESULTS · 实验分析
07 / 10
多维评测
结果对比
在 500 条测试集上,GPT-4o 对六维度(准确性、事实一致性、CoT完整度、逻辑连贯性、安全性、可解释性)1-5 分制评分。SFT+RAG 综合评分 4.77,全面最优。
SFT+RAG 综合
4.77

六维度最高综合评分
SFT(4.52) / RAG(3.88)

CoT 完整度提升
+1.30

Base 3.55 → SFT+RAG 4.85
SFT 贡献辨证链稳定性

事实一致性提升
+1.15

Base 3.65 → SFT+RAG 4.80
RAG 贡献知识锚定能力

BOUNDARY · 方法边界
08 / 10
DPO 负面实验 · 奖励劫持风险

偏好优化为何被放弃?

SFT · 微调后
4.75
CoT 完整度
2%
直接出方率

模型按要求输出完整辨证链
性质判定→证候推导→治法→方剂

SFT+DPO · 偏好优化后
2.10
CoT 完整度 ↓56%
88%
直接出方率 ↑86%

模型绕过所有辨证环节
直接输出方剂名称——奖励劫持

DPO奖励劫持对比图
低资源偏好对齐可能诱发"奖励劫持":模型将"省略推理链"误学为更优策略。对于强调可解释辨证逻辑的中医问答系统,这意味着推理过程的实质性崩塌。
CONCLUSION · 总结
09 / 10
研究贡献与方法边界

五方面核心贡献

01

数据:结构化CoT-SFT

1200条中医辨证链数据,三层质量检查

02

知识:本地古籍RAG

5部经典,8500条片段,事实锚定

03

系统:SFT+RAG融合

推理结构+事实锚点互补,综合4.77

04

评测:多维LLM-as-Judge

六维度+500条测试集+消融验证

05

边界:DPO负面发现

低资源偏好优化的奖励劫持风险分析

为中医领域LLM问答系统的可解释设计、知识库接入及评测框架构建提供工程参考

SFT 教模型"怎么推理" · RAG 给回答"依据从哪里来"
→ SFT+RAG = 4.77
10 / 10
CLOSING
ACKNOWLEDGMENT

谢谢
Thank You

基于大模型的中医问答系统的研究与应用
艾涛 · 计算机科学与技术 2022051059
2026.05
TAKEAWAYS
03 POINTS
01

CoT-SFT 赋予辨证推理结构

结构化思维链微调让模型学会"性质判定→证候推导→治法确立→方剂推荐"的链式推理,CoT完整度从 3.55 提升至 4.85

02

RAG 为回答提供事实锚点

本地古籍向量知识库在推理阶段为模型提供可检索的经典文本依据,事实一致性从 3.65 提升至 4.80

03

SFT+RAG 融合方案综合最优

六维度综合评分 4.77,实现可解释性与事实准确性的最优平衡。DPO负面发现也提醒我们:对齐目标必须保护推理链完整度

→ 感谢各位老师批评指正 · Q&A