Scikit学习和计算矢量化器错误

时间:2014-09-21 01:15:40

标签: python-2.7 scikit-learn vectorization

有谁知道这个ImportError的来源以及如何修复它?我正在使用CSV文件进行文本挖掘。此时,我只是试图对文件中某些作业描述中的单词进行标记,然后对其进行矢量化和计数。但是,我收到了这个错误。原始代码遵循此错误消息供您查看。我已经尝试卸载Anaconda并重新安装它以及所有软件包。这个代码在我的PC(旧网关)上运行得非常好,但是在我的Mac(2012)上没有使用Lion OSX运行。

---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-49-7fcd55a48eba> in <module>()
----> 1 from sklearn.feature_extraction.text import CountVectorizer
      2 cv = CountVectorizer(lowercase=True)
      3 vector = cv.fit_transform(words).toarray()
      4 print vector.shape

//anaconda/lib/python2.7/site-packages/sklearn/__init__.py in <module>()
     35     # process, as it may not be compiled yet
     36 else:
---> 37     from . import __check_build
     38     from .base import clone
     39     __check_build  # avoid flakes unused variable error

ImportError: cannot import name __check_build


from nltk.tokenize import word_tokenize

为所有帖子创建单词列表

words = []
for p in postList[:100]:
    temp = word_tokenize(p[2])
    temp2 = [w.lower() for w in temp]
    string = ''
    for w in temp2:
        string += w + ', '
    string = string[:-1]
    words.append(string)
print words

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(lowercase=True)
vector = cv.fit_transform(words).toarray()
print vector.shape

1 个答案:

答案 0 :(得分:0)

您正在导入的scikit-learn尚未正确构建。检查搜索路径:

python -c "import sys; print(sys.path)"

sklearn.__path__(如果导入sklearn失败,则不确定这是否可行)。要么重建您现在要导入的sklearn版本(如何执行此操作取决于它的安装方式,最有可能是python setup.py build_ext -ipython setup.py install),要么将其从搜索路径中删除。