开始进行文本分析,最终需要使用PyCharm2019作为IDE下载Corpora。由于我已经使用了PyCharm自己的lib导入接口来启用Corpora,因此不确定我要做什么回溯消息。为什么出现错误,提示该代码无法使用Corpora?
导入的TextBlob,尝试执行以下操作:从textblob导入TextBlob ...查看下面的代码
from textblob import TextBlob
TextBlob(train['tweet'][1]).words
print("\nPRINT TOKENIZATION") # own instruction to allow for knowing what code result delivers
print(TextBlob(train['tweet'][1]).words)
....
试图通过nltk安装,没有运气...下载“ brown.tei”时出错
显示信息https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml Tkinter回调中的异常 追溯(最近一次通话): 在调用中的文件“ C:\ Users \ jcst \ AppData \ Local \ Programs \ Python \ Python37-32 \ lib \ tkinter__init __。py”,行1705 返回self.func(* args) 文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ downloader.py”,行1796,在_download中 返回self._download_threaded(* e) 文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ downloader.py”,第2082行,在_download_threaded中 断言self._download_msg_queue == [] 断言错误 追溯(最近一次通话): 修饰后的文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ decorators.py”,第35行 return func(* args,** kwargs) 文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ tokenizers.py”,第57行,标记形式 返回nltk.tokenize.sent_tokenize(文本) 在send_tokenize的第104行中,文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ tokenize__init __。py” tokenizer =负载('tokenizers / punkt / {0} .pickle'.format(language)) 加载中的文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ data.py”,行870 opens_resource = _open(resource_url)
资源文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ data.py”,行995,在中打开 找不到punkt。 请使用NLTK下载器获取资源: 返回find(path ,path + [''])。open()
在查找中找到文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ nltk \ data.py”
导入nltk nltk.download('punkt')
有关更多信息,请参见:https://www.nltk.org/data.html
试图加载tokenizers / punkt / english.pickle
在以下位置搜索: -'C:\ Users \ jcst / nltk_data' -'C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ nltk_data' -'C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ share \ nltk_data' -'C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ nltk_data' -'C:\ Users \ jcst \ AppData \ Roaming \ nltk_data' -'C:\ nltk_data' -'D:\ nltk_data' -'E:\ nltk_data' -''
raise LookupError(resource_not_found)
LookupError:
未找到资源标记。 请使用NLTK下载器获取资源:
导入nltk nltk.download('punkt')
有关更多信息,请参见:https://www.nltk.org/data.html
试图加载tokenizers / punkt / english.pickle
在以下位置搜索: -'C:\ Users \ jcst / nltk_data' -'C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ nltk_data' -'C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ share \ nltk_data' -'C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ nltk_data' -'C:\ Users \ jcst \ AppData \ Roaming \ nltk_data' -'C:\ nltk_data' -'D:\ nltk_data' -'E:\ nltk_data' -''
在处理上述异常期间,发生了另一个异常:
回溯(最近通话最近): 文件“ C:/Users/jcst/PycharmProjects/TextMining/ModuleImportAndTrainFileIntro.py”,第151行,在 TextBlob(train ['tweet'] [1])。单词 文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ decorators.py”,第24行,获取 值= obj。字典 [self.func。名称] = self.func(obj) 文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ blob.py”,第649行,用文字显示 返回WordList(word_tokenize(self.raw,include_punc = False)) 文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ tokenizers.py”,第73行,在word_tokenize中 用于send_tokenize(文本)中的句子 文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ base.py”,第64行,位于itokenize中 return(在self.tokenize(text,* args,** kwargs)中以t表示t) 修饰后的文件“ C:\ Users \ jcst \ PycharmProjects \ TextMining \ venv \ lib \ site-packages \ textblob \ decorators.py”,第38行 引发MissingCorpusError() textblob.exceptions.MissingCorpusError: 似乎您缺少此功能的一些必需数据。
要下载必要的数据,只需运行
python -m textblob.download_corpora
或使用NLTK下载器下载丢失的数据:http://nltk.org/data.html 如果仍不能解决问题,请在https://github.com/sloria/TextBlob/issues提交问题。