我是机器学习的新手。经过大量的研究,我决定尽可能多地使用Sci-Kit Learn。但我还是在第一个方面。
我想做的是对我的文件进行欧氏距离测量。我正在使用NLTK准备文本和Sci-Kit到extract document features。我现在要做的是测量文件的欧氏距离。
这是Sci-Kit's documentation for euclidean distance measurement。我不清楚(newb)我应该传递函数的哪些特征(即euclidean_distances())。谁能告诉我通过Sci-Kit的欧氏距离函数需要什么?
感谢您的帮助。
答案 0 :(得分:1)
只需输入矢量图的fit_transform
方法的输出。
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import euclidean_distances
v = TfidfVectorizer()
X = v.fit_transform(your_documents)
D = euclidean_distances(X)
现在D[i, j]
是文档向量X[i]
和X[j]
之间的欧几里德距离。