From aaf001e22fa6e7dd695dd3a967bba6da2c5d2bdc Mon Sep 17 00:00:00 2001 From: Yixuan Weng <64484703+WENGSYX@users.noreply.github.com> Date: Thu, 7 Apr 2022 20:52:34 +0800 Subject: [PATCH] Update readme.md --- readme.md | 12 ++++++------ 1 file changed, 6 insertions(+), 6 deletions(-) diff --git a/readme.md b/readme.md index db4aa23..8390c53 100644 --- a/readme.md +++ b/readme.md @@ -6,13 +6,13 @@ -#### 之前需要用医学相关的词向量,可惜一直找不到,只好自己来做了。 -#### 除了这个词向量,还另外整理了一份五千词的生物医学高频词表,通过对医学词汇进行统计,取出现次数在200次以上的医学词汇构建而成,如有需要可直接github下载med_word.txt。 +之前需要用医学相关的词向量,可惜一直找不到,只好自己来做了。 +除了这个词向量,还另外整理了一份五千词的生物医学高频词表,通过对医学词汇进行统计,取出现次数在200次以上的医学词汇构建而成,如有需要可直接github下载med_word.txt。 -#### 为了完成这个医学词向量,花了几天时间找了各种医学生物语料库和相关数据集并对其整理。整体语料库包括医学文献,医患对话,维基百科百度知道等医学相关语料,整体语料库共计1.6G,总共7052948句子,仅为生物医学领域相关语料。 -#### 使用专业医学类词汇进行分词(词汇表详见http://thuocl.thunlp.org/) -#### 注意,因为部分语料来自网络医患对话,导致错别字的出现,比如‘身体’的最近词向量竟是‘生体’,因此请小心使用。 -### 词向量已上传至百度网盘 欢迎使用 +为了完成这个医学词向量,花了几天时间找了各种医学生物语料库和相关数据集并对其整理。整体语料库包括医学文献,医患对话,维基百科百度知道等医学相关语料,整体语料库共计1.6G,总共7052948句子,仅为生物医学领域相关语料。 +使用专业医学类词汇进行分词(词汇表详见http://thuocl.thunlp.org/) +注意,因为部分语料来自网络医患对话,导致错别字的出现,比如‘身体’的最近词向量竟是‘生体’,因此请小心使用。 +词向量已上传至百度网盘 欢迎使用 ### https://pan.baidu.com/s/1YqTOlDqZ3bTzGYAGMxW2Cw