使用Sci-Kit对文档(即文本)执行欧几里德距离测量

时间:2013-05-23 02:16:02

标签: python machine-learning scikit-learn

我是机器学习的新手。经过大量的研究,我决定尽可能多地使用Sci-Kit Learn。但我还是在第一个方面。

我想做的是对我的文件进行欧氏距离测量。我正在使用NLTK准备文本和Sci-Kit到extract document features。我现在要做的是测量文件的欧氏距离。

这是Sci-Kit's documentation for euclidean distance measurement。我不清楚(newb)我应该传递函数的哪些特征(即euclidean_distances())。谁能告诉我通过Sci-Kit的欧氏距离函数需要什么?

感谢您的帮助。

1 个答案:

答案 0 :(得分:1)

只需输入矢量图的fit_transform方法的输出。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import euclidean_distances

v = TfidfVectorizer()
X = v.fit_transform(your_documents)
D = euclidean_distances(X)

现在D[i, j]是文档向量X[i]X[j]之间的欧几里德距离。