镜像自地址
https://github.com/WENGSYX/Chinese-Word2vec-Medicine.git
已同步 2025-12-06 06:36:47 +00:00
Update readme.md
这个提交包含在:
@@ -6,12 +6,13 @@
|
|||||||
|
|
||||||
|
|
||||||
|
|
||||||
#### 之前需要做医学相关的课题,要用医学相关的词向量,可惜一直找不到,只好自己来做了。
|
#### 之前需要用医学相关的词向量,可惜一直找不到,只好自己来做了。
|
||||||
|
#### 除了这个词向量,还另外整理了一份五千词的生物医学高频词表,通过对医学词汇进行统计,取出现次数在200次以上的医学词汇构建而成,如有需要可直接githu下载med_word.txt。
|
||||||
|
|
||||||
#### 为了完成这个医学词向量,花了几天时间找了各种医学生物语料库和相关数据集并对其整理。整体语料库包括医学文献,医患对话,维基百科百度知道等医学相关语料,整体语料库共计1.6G,总共7052948句子,仅为生物医学领域相关语料。
|
#### 为了完成这个医学词向量,花了几天时间找了各种医学生物语料库和相关数据集并对其整理。整体语料库包括医学文献,医患对话,维基百科百度知道等医学相关语料,整体语料库共计1.6G,总共7052948句子,仅为生物医学领域相关语料。
|
||||||
#### 使用专业医学类词汇进行分词(词汇表详见http://thuocl.thunlp.org/)
|
#### 使用专业医学类词汇进行分词(词汇表详见http://thuocl.thunlp.org/)
|
||||||
|
|
||||||
### 已上传至百度网盘 欢迎使用
|
### 词向量已上传至百度网盘 欢迎使用
|
||||||
|
|
||||||
### https://pan.baidu.com/s/1YqTOlDqZ3bTzGYAGMxW2Cw
|
### https://pan.baidu.com/s/1YqTOlDqZ3bTzGYAGMxW2Cw
|
||||||
|
|
||||||
@@ -92,7 +93,3 @@ model = KeyedVectors.load_word2vec_format('Medical.txt', binary=False)
|
|||||||
|
|
||||||
###
|
###
|
||||||
|
|
||||||
|
|
||||||
## 后续
|
|
||||||
|
|
||||||
### 做这个词向量主要是想搞一个医学领域的TRANSFORMERS模型,准备尝试MacBERT的预训练方法,(使用替换相似词的方法预训练),正在考虑使用BERT-LARGE还是T5模型中。。。后续可能开源,欢迎关注。
|
|
||||||
|
|||||||
在新工单中引用
屏蔽一个用户