Update readme.md

2025-12-06 06:36:47 +00:00 · 2021-06-10 13:55:55 +08:00
--- a/readme.md
+++ b/readme.md
@@ -6,12 +6,13 @@



-#### 之前需要做医学相关的课题，要用医学相关的词向量，可惜一直找不到，只好自己来做了。
+#### 之前需要用医学相关的词向量，可惜一直找不到，只好自己来做了。
+#### 除了这个词向量，还另外整理了一份五千词的生物医学高频词表，通过对医学词汇进行统计，取出现次数在200次以上的医学词汇构建而成，如有需要可直接githu下载med_word.txt。

 #### 为了完成这个医学词向量，花了几天时间找了各种医学生物语料库和相关数据集并对其整理。整体语料库包括医学文献，医患对话，维基百科百度知道等医学相关语料，整体语料库共计1.6G,总共7052948句子，仅为生物医学领域相关语料。
 #### 使用专业医学类词汇进行分词（词汇表详见http://thuocl.thunlp.org/）

-### 已上传至百度网盘  欢迎使用
+### 词向量已上传至百度网盘  欢迎使用

 ### https://pan.baidu.com/s/1YqTOlDqZ3bTzGYAGMxW2Cw 

@@ -92,7 +93,3 @@ model = KeyedVectors.load_word2vec_format('Medical.txt', binary=False)

 ### 

-
-## 后续
-
-### 做这个词向量主要是想搞一个医学领域的TRANSFORMERS模型，准备尝试MacBERT的预训练方法，（使用替换相似词的方法预训练），正在考虑使用BERT-LARGE还是T5模型中。。。后续可能开源，欢迎关注。