镜像自地址
https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese.git
已同步 2025-12-06 06:26:48 +00:00
add benchmark
这个提交包含在:
@@ -1,9 +1,9 @@
|
||||
##评价基准
|
||||
## 评价基准
|
||||
我们提出了中文医学复杂开放式问题回答基准(CMCOQA),旨在通过在医疗场景中构建复杂的开放式问题来更准确、有效地评估大语言模型的医学水平。
|
||||
###基准构建
|
||||
### 基准构建
|
||||
我们首先手动构建了100个复杂的医学问题,并通过GPT-4结合Self-Instruct方法扩展至1200个问题,形成CMCOQA基准。并依据ICD-10标准进行问题分类,对某些类别进行调整,以确保数据集涵盖了各种疾病,且分布相对均衡。
|
||||
- [CMCOQA基准数据集样例](question.json)
|
||||
###评价维度
|
||||
- [CMCOQA基准数据集样例](question.json)
|
||||
### 评价维度
|
||||
CMCOQA基准涉及三个评估维度:完整性(Completeness)、深刻性(Depth)和专业性(Professionalism)。在每个维度按照下表的评分标准,使用0到3分进行评分。
|
||||
|
||||
|
||||
@@ -17,7 +17,7 @@ CMCOQA基准涉及三个评估维度:完整性(Completeness)、深刻性
|
||||
| | 简洁性 | 言简意赅,直奔主题,没有冗余信息。 |
|
||||
| | 术语使用 | 恰当使用专业术语,展现专业水平。 |
|
||||
|
||||
###评价结果
|
||||
### 评价结果
|
||||
我们使用人工和GPT-4o结合的方式,使用CMCOQA基准对一系列医学大模型以及通用领域大模型进行评估,可以看到,在医学大模型领域,基于知识微调的本草大模型表现优异,尤其在回复的深刻性方面,显著优于其他基线。
|
||||
|
||||
<p align="center" width="100%">
|
||||
|
||||
在新工单中引用
屏蔽一个用户