diff --git a/readme.md b/readme.md index c06977a..349bcf4 100644 --- a/readme.md +++ b/readme.md @@ -11,12 +11,11 @@ ##### 为了完成这个医学词向量,花了几天时间找了各种医学生物语料库和相关数据集并对其整理。整体语料库包括医学文献,医患对话,维基百科百度知道等医学相关问题,整体语料库共计1.6G,总共7052948句子,仅为生物医学领域相关语料。 - ### 已上传至百度网盘 欢迎使用 -#### https://pan.baidu.com/s/1YqTOlDqZ3bTzGYAGMxW2Cw +##### https://pan.baidu.com/s/1YqTOlDqZ3bTzGYAGMxW2Cw -### 提取码:**8888** +#### 提取码:**8888** ### @@ -41,34 +40,39 @@ > ('大脑半球', 0.33359262347221375), > ('额页', 0.32096001505851746)] +wv.most_similar('头孢丙烯片') +Out[37]: +[('头孢地尼', 0.5654973387718201), + ('阿莫西林', 0.5394408106803894), + ('头孢地尼胶囊', 0.5379139184951782), + ('妇乐片', 0.5260443091392517), + ('头孢地尼分散片', 0.5213251709938049), + ('康妇炎胶囊', 0.5203120708465576), + ('裸花紫珠胶囊', 0.5182883143424988), + ('头孢克洛缓释片', 0.5178096294403076), + ('头胞克洛', 0.5159974098205566), + ('罗红霉素', 0.5115748643875122)] + + ### 通用词向量(https://github.com/Embedding/Chinese-Word-Vectors) > wv2.most_similar('海马') > Out[31]: > > [('海马牌', 0.6078361868858337), -> > ('海马齿', 0.5532827377319336), -> > ('普力马', 0.5418268442153931), -> > ('马自达', 0.5407805442810059), -> > ('东南汽车', 0.5387718677520752), -> > ('000572', 0.5375587344169617), -> > ('宝骏', 0.5361850261688232), -> > ('海马回', 0.5352568030357361), -> > ('北汽', 0.5325318574905396), -> > ('小海马', 0.5315144062042236)] -此医学词向量含278256个生物医学相关词汇,维度512,使用gensim训练。 +##此医学词向量含278256个生物医学相关词汇,维度512,使用gensim训练。 ```python model = word2vec.Word2Vec(sent, sg=0, epochs=8,vector_size=512, window=5, min_count=4, negative=3, sample=0.001, hs=1, workers=16)