本文作者:访客

豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

访客 2025-07-10 16:02:39 1
豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%摘要: 文 | 王强宇在医疗 AI 领域,通用大语言模型虽凭借海量互联网数据训练具备广泛知识覆盖面,但在需高度专业判断的临床场景...

文 | 王强宇

在医疗 AI 领域,通用大语言模型虽凭借海量互联网数据训练具备广泛知识覆盖面,但在需高度专业判断的临床场景中表现欠佳。当医生询问疾病鉴别诊断时,通用模型可能给出不准确甚至错误建议,这在严肃的医疗决策中不可接受。

大家都知道监督微调(SFT)技术是解决上述难题性价比较比较高的方案之一,但SFT也需要具体一定的条件:如高质的数据集,同时由于医疗数据的特殊性和复杂性,模型调优的过程可能非常耗时且难以预测。同时SFT是一个迭代优化的过程,需要不断地对模型进行训练、评测和优化。

豆蔻妇科大模型的模型调优经历了两个关键优化阶段:

  • 第一阶段(2025年4月):构建SFT基础模型,采用1300条精标中文妇科问诊数据作为训练样本,结合教师模型数据蒸馏和人工审核,使模型初步具备专业问诊能力,初始准确率达77.1%。

  • 第二阶段(2025年6月):通过针对性地合成症状数据,重新蒸馏、标注COT,筛选质量更高的数据等,重新进行微调训练,使得妇科六大症状的诊断准确率最终达到了90.2%。此阶段的优化策略包括严格科学的数据清洗重组流程、数据蒸馏校准技术及基于大模型的自动化评测系统+人工复审机制,该阶段的训练完全基于钉钉行业训练平台完成。

以下是豆蔻妇科大模型从第一个版本的准确率77.1%,通过进一步的SFT后,准确率达到90.2%我们团队的一些方法和心得,供大家参考,欢迎留言讨论。

一、训练数据集的科学筛选(数据集构建与质量控制)

在对优质训练数据集的筛选过程中,我们实施了三个关键步骤:

第一是系统化数据清理,通过建立严格的质量控制标准,重点关注推理与结果的一致性检查,筛选出answer与ground truth不一致的样本,特别是那些思考过程和输出结果不一致的情况,这类数据被视为低质量数据。同时进行逻辑链条完整性验证,确保每个诊断结论都有充分的症状支撑和推理依据,并对医学常识合理性进行筛查,剔除违背基本医学原理的数据,如"男性患者诊断为妊娠"这类明显错误,以及症状关联性不合理的数据,比如"无性生活但指定避孕方式是避孕套"的情况。

豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

同时,对训练数据集覆盖度的平衡也做了一些策略:

  • 数据集中的数据,同时需要包含简单以及复杂的病例数据,充分模拟真实世界的数据。

  • 涵盖从青春期到更年期的全生命周期病例,以及常见病与罕见病的比例,避免模型出现诊断偏好。

第二是蒸馏数据的校准环节,这是确保思维链COT(Chain-of-Thought)数据质量的关键步骤。

所有COT数据必须保持推理一致性,COT必须能够完整支撑最终的诊断结果,特别是在诊断优先级排序上要有明确依据。每个诊断的优先级都需要有清晰的医学依据支撑,比如"妊娠排在第一位是因为患者月经推迟大于7天,且近期有性生活史"。

豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

为保障鉴别诊断的完备性,需系统性覆盖全部潜在鉴别诊断方案,并针对各诊断结论提供充分的医学依据与论证支撑,蒸馏校准流程具体实施细则如下:

人工标注环节:由内部的专业医学专家团队,依据现行医学行业标准,对症状数据实施规范化标注作业,构建标准化诊断结果集,为后续流程奠定基准参照体系。

模型推理环节:以标注后的症状数据及人工诊断结果为基准,借助教师模型开展推理运算,生成包含初步思维链(COT)的推理过程及诊断结论。

完整性质控环节:采用双重验证机制,重点核查以下核心要素:

格式规范性验证:严格对照 “1 个最可能诊断 + 2-5 个其他潜在诊断 + 检查项目建议 + 处置方案建议 + 注意事项说明” 的标准化输出格式,确保诊断结果格式完整、规范;

诊断结论一致性验证:通过将模型输出的诊断结果与人工标注的标准答案进行逐点比对,保障二者完全契合,杜绝任何结论偏差。

智能自动化校验:引入智能规则引擎,基于预设的医学逻辑规则,对症状描述与诊断结论之间的匹配合理性进行自动化校验。例如,针对 “患者出现阴道出血症状,诊断为宫颈病变” 等诊断结论,依据医学知识库中的关联规则,自动评估其逻辑合理性与临床可行性。

优化提升环节:由医学专家团队对质控后的结果进行人工校准与增强,通过迭代式蒸馏优化策略,持续完善数据质量,确保每个训练样本均具备完整且严谨的推理逻辑链条,以及精准可靠的诊断结论。

豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

第三是持续迭代优化阶段:使用优化后的模型对新数据进行推理生成,通过自动化评测系统筛选出评分8分以上的高质量样本加入训练集,进行新一轮SFT训练,形成"训练-评测-筛选-再训练"的良性循环。在整个过程中,我们持续监控多项关键指标,包括模型在测试集上的准确率变化、六大核心症状的分项得分以及罕见病例的识别准确率,确保模型性能得到全方位提升。

二、双重评估体系:确保医学准确性

为了评测答案的准确性,我们构建了一套完整的模型质量评估体系,包含自动化评测和人工审核两个关键环节(上图)。在自动化评测方面,我们开发了基于大模型的裁判系统,该系统采用DeepSeek R1级别的高性能语言模型作为核心评测引擎,按照医生制定的10分制标准对模型输出进行客观评分。这个自动化系统具有三大核心特点:首先,它采用模型驱动评测机制,确保评分过程的准确性和一致性;其次,通过将医生的评估标准转化为结构化的prompt,建立标准化的评分框架;最后,系统支持批量自动化处理,能够快速完成大量样本的评测,提升评估效率。

豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

为补充自动化评测的不足,我们建立了严格的医生修正反馈机制。由内部妇科专家团队对模型输出进行人工审核,特别关注那些处于评分边界或存在争议的边缘案例。专家们会详细检查模型输出的诊断建议,将修正意见反馈到训练数据中,形成"评估-修正-优化"的闭环迭代机制。这个人机协同的评估体系既保证了评测效率,又确保了专业质量,为模型的持续优化提供了可靠保障。

豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

经验教训与挑战

在垂直领域模型训练中,尽管有许多论文和教材提供指导,但实际操作中仍面临诸多挑战。初期,我们过度依赖了人工标注,导致训练集数据积累缓慢、效率低下且成本高昂。后面经过策略的调整,设置了“机器蒸馏→专家审核→训练后评估”的体系后,数据生产效率显著提升。同时,针对思维链推理过程与最终诊断结果脱节的问题,建立严格的逻辑一致性检查机制,确保每个推理步骤都能有效支撑最终结论,避免模型学习出现混乱。

训练数据集过度集中在常见病,导致模型对罕见病识别能力不足。为此,我们采用平衡采样策略,对罕见病例进行针对性采样,确保各类疾病都能获得足够的训练样本。在评测标准方面,人工评测存在主观性强、标准不统一的问题,我们引入另一个大模型作为标准化评测工具,有效保证了评分的客观性和一致性。这些措施共同构成了一个完整的质量保障体系,为专业领域模型的开发提供了可靠支撑。

在医疗大模型的实际应用中,用户的问题往往零散且不完整,需要模型具备多维思考模式。医疗领域的容错率极低,大模型不仅要“说出知道的”,更要对依据不足或不确定的情况给出尽可能专业的诊断。豆蔻妇科大模型以真实临床路径为蓝本,在病例分析过程中不仅精准定位“滴虫性阴道炎”为首要诊断,还同步考虑性传播疾病、宫颈病变等多种鉴别诊断,并基于患者17岁青春期特征纳入“排卵障碍性出血”评估,形成多层级诊断网络。这种“全链路思维”在复杂症状场景中尤为凸显:当患者出现“灰黄色血性白带 + 尿频”复合症状时,模型通过逻辑链条解析,最终生成包含6项检查建议(白带常规、性传播疾病核酸检测等)及分层治疗方案(甲硝唑用药 + 性伴侣同治),从“疾病诊断”到“治疗方案”的临床全链路思考。这一过程对人力和医学专业能力要求极高。

豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

有人说训练大模型,更多的是对数据的清洗、标注,对并模型给出的答案不断进行反馈、纠正。我们不是在教机器“选对答案”,而是在让 AI 学会像医生一样思考,这也是医疗大模型最大的挑战

关于训练平台

这一次,我们选择了钉钉企业专属AI平台,作为我们的训练调优核心工具。钉钉企业专属AI平台是一款一站式企业专属大模型生产平台,专为有调优、后训练需求的企业和开发者量身打造,提供从数据治理、高效训练到灵活部署的完整端到端工具链,全方位助力企业实现大模型的高效落地与优化。

在这一阶段的调优过程中,钉钉企业专属AI平台发挥了至关重要的作用。它覆盖SFT/RFT(GRPO)两种训练方法,提供分布式训练、多Lora部署等加速优化手段,通过页面后台和SDK两种模式,为我们的训练调优提供了强大的技术支持。在钉钉专业技术人员的紧密协同下,我们实现了训练效率的大幅提升,将单次训练时长从26小时缩短至7小时,降幅高达73%。这一显著的优化成果,充分体现了钉钉炼丹炉大模型服务平台在提升训练效率、降低训练成本方面的卓越价值,也彰显了钉钉在大模型训练领域的强大技术实力和专业服务能力。

SFT作为医学大模型构建基础能力的核心环节,其重要性不言而喻。它不仅是模型能否输出符合医学规范安全建议的关键,更是通过高质量思维链数据的训练,使模型得以掌握标准诊断逻辑、实现推理透明化,并广泛覆盖常见临床场景的基础。

展望未来,我们团队将积极探索SFT+RL的协同训练范式,以应对临床推理中的双重挑战。SFT将确保模型对基础医学知识的结构化掌握,培养起“循证思维”;而RL则将在实际应用中锤炼模型的判断力,助其形成“临床直觉”。我们坚信,这种双重训练模式将使AI不仅具备给出符合医学指南建议的能力,更能针对复杂病例进行上下文感知的个性化推理,最终实现从“医学词典”到“会诊专家”的华丽蜕变。让我们共同期待这一天的到来!

阅读
分享