为所有帖子创建单词列表

Question

有谁知道这个ImportError的来源以及如何修复它？我正在使用CSV文件进行文本挖掘。此时，我只是试图对文件中某些作业描述中的单词进行标记，然后对其进行矢量化和计数。但是，我收到了这个错误。原始代码遵循此错误消息供您查看。我已经尝试卸载Anaconda并重新安装它以及所有软件包。这个代码在我的PC（旧网关）上运行得非常好，但是在我的Mac（2012）上没有使用Lion OSX运行。

---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-49-7fcd55a48eba> in <module>()
----> 1 from sklearn.feature_extraction.text import CountVectorizer
      2 cv = CountVectorizer(lowercase=True)
      3 vector = cv.fit_transform(words).toarray()
      4 print vector.shape

//anaconda/lib/python2.7/site-packages/sklearn/__init__.py in <module>()
     35     # process, as it may not be compiled yet
     36 else:
---> 37     from . import __check_build
     38     from .base import clone
     39     __check_build  # avoid flakes unused variable error

ImportError: cannot import name __check_build


from nltk.tokenize import word_tokenize

为所有帖子创建单词列表

words = []
for p in postList[:100]:
    temp = word_tokenize(p[2])
    temp2 = [w.lower() for w in temp]
    string = ''
    for w in temp2:
        string += w + ', '
    string = string[:-1]
    words.append(string)
print words

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(lowercase=True)
vector = cv.fit_transform(words).toarray()
print vector.shape

Answer 1

您正在导入的scikit-learn尚未正确构建。检查搜索路径：

python -c "import sys; print(sys.path)"

和sklearn.__path__（如果导入sklearn失败，则不确定这是否可行）。要么重建您现在要导入的sklearn版本（如何执行此操作取决于它的安装方式，最有可能是python setup.py build_ext -i或python setup.py install），要么将其从搜索路径中删除。

Scikit学习和计算矢量化器错误

为所有帖子创建单词列表

1 个答案: