kmeans scikit-学习教程

时间:2014-04-01 03:22:02

标签: python numpy scipy scikit-learn

我尝试使用Python代替R进行数据分析,并且遇到了一些麻烦。所以我一直在阅读scikit-learn的文档,并尝试自己运行他们的kmeans示例,但收到此错误消息:

  

使用稀疏矢量图从训练数据集中提取要素   回溯(最近一次调用最后一次):

     

文件" kmeans.py",第104行,in       X = vectorizer.fit_transform(dataset.data)

     

File" /Library/Python/2.7/site-packages/scikit_learn-0.15_git-py2.7-macosx-10.9-intel.egg/sklearn/feature_extraction/text.py" ;,第1238行,在fit_transform中       return self._tfidf.transform(X,copy = False)

     

File" /Library/Python/2.7/site-packages/scikit_learn-0.15_git-py2.7-macosx-10.9-intel.egg/sklearn/feature_extraction/text.py" ;,第1010行,在变换中       X = normalize(X,norm = self.norm,copy = False)

     

File" /Library/Python/2.7/site-packages/scikit_learn-0.15_git-py2.7-macosx-10.9-intel.egg/sklearn/preprocessing/data.py" ;,第542行,在规范化       inplace_csr_row_normalize_l2(X)

     

文件" sparsefuncs.pyx",第146行,在sklearn.utils.sparsefuncs.inplace_csr_row_normalize_l2(sklearn / utils / sparsefuncs.c:2714)

     

ValueError:缓冲区dtype不匹配,预期' int'但是得到了很长的'

供参考,代码如下:http://scikit-learn.org/stable/auto_examples/document_clustering.html

我花了一些小小的东西来获得整个scipy堆栈,但我确定我现在已经拥有它,只是想知道为什么复制粘贴他们的代码然后运行它会产生错误(我' m确定他们不会在他们的网站上放置带有错误的代码)。关于修复是什么/发生了什么的任何想法?

2 个答案:

答案 0 :(得分:0)

你是如何安装scipy堆栈的?我强烈建议你不要自己组装一个堆栈,因为这样做非常具有挑战性。我宁愿让你使用anaconda https://store.continuum.io/cshop/anaconda/

免责声明:1)我不会为这些人工作。 2)anaconda有一个免费版本。这很好。

答案 1 :(得分:0)

一种有用的方法是安装Anaconda和PyCharm或Eclipse IDE。将您的intepreter从IDE指向Anaconda lib。有关更多指南,请参阅此链接:http://docs.continuum.io/anaconda/ide_integration.html。另外,从shell更新pkgs包括“conda update”和“anaconda update”的scikit是非常容易的。