R中轻松单词移动器的距离

时间:2018-12-06 09:43:25

标签: python r gensim wmd text2vec

我正在使用df.drop(["name","ticket","cabin","boat","body","home.dest"], axis=1,inplace=True) df.embarked = df.embarked.fillna(df.embarked.mode()[0]) es_grp1=df.groupby(['embarked','survived']) value_sum = 0 for i in es_grp1.groups.keys(): plt.bar(0,es_grp1.get_group(i).embarked.size, bottom=value_sum) value_sum += es_grp1.get_group(i).embarked.size plt.text(str(i),es_grp1.get_group(i).embarked.size,es_grp1.get_group(i).embarked.size) plt.show() 包中的“轻松单词移动器的距离”来计算文档之间的距离,以便为每个目标文档标识最相似的文档。使用text2vec(在Python的功能FastText中可用)编译字向量。文件的长度可以从一个字到超过50个字不等。某些文档在语料库中重复。我假设这些重复项之间的距离应该非常短,并且同一对文档的不同对之间的值应该相同。但是,我观察到的是,这些相同的对之间的距离可以从接近0到大于1不等,并且其他一些不那么相关的文档甚至得出的结论是比这些相同的对更近。我使用的命令如下:

gensim

上述模型是否有问题?

0 个答案:

没有答案