我正在使用df.drop(["name","ticket","cabin","boat","body","home.dest"], axis=1,inplace=True)
df.embarked = df.embarked.fillna(df.embarked.mode()[0])
es_grp1=df.groupby(['embarked','survived'])
value_sum = 0
for i in es_grp1.groups.keys():
plt.bar(0,es_grp1.get_group(i).embarked.size, bottom=value_sum)
value_sum += es_grp1.get_group(i).embarked.size
plt.text(str(i),es_grp1.get_group(i).embarked.size,es_grp1.get_group(i).embarked.size)
plt.show()
包中的“轻松单词移动器的距离”来计算文档之间的距离,以便为每个目标文档标识最相似的文档。使用text2vec
(在Python的功能FastText
中可用)编译字向量。文件的长度可以从一个字到超过50个字不等。某些文档在语料库中重复。我假设这些重复项之间的距离应该非常短,并且同一对文档的不同对之间的值应该相同。但是,我观察到的是,这些相同的对之间的距离可以从接近0到大于1不等,并且其他一些不那么相关的文档甚至得出的结论是比这些相同的对更近。我使用的命令如下:
gensim
上述模型是否有问题?