Huatuo-Llama-Med-Chinese/README.md 位于 9eba67bfac314b2e433d9896f7afa7f8f2379225

镜像自地址 https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese.git 已同步 2025-12-05 22:16:49 +00:00

文件

wdnnwza 9eba67bfac add benchmark

2025-02-11 11:00:30 +08:00

评价基准

我们提出了中文医学复杂开放式问题回答基准（CMCOQA），旨在通过在医疗场景中构建复杂的开放式问题来更准确、有效地评估大语言模型的医学水平。

我们首先手动构建了100个复杂的医学问题，并通过GPT-4结合Self-Instruct方法扩展至1200个问题，形成CMCOQA基准。并依据ICD-10标准进行问题分类，对某些类别进行调整，以确保数据集涵盖了各种疾病，且分布相对均衡。

CMCOQA基准涉及三个评估维度：完整性（Completeness）、深刻性（Depth）和专业性（Professionalism）。在每个维度按照下表的评分标准，使用0到3分进行评分。

我们使用人工和GPT-4o结合的方式，使用CMCOQA基准对一系列医学大模型以及通用领域大模型进行评估，可以看到，在医学大模型领域，基于知识微调的本草大模型表现优异，尤其在回复的深刻性方面，显著优于其他基线。