我是NLTK的新手,我用nltk.download()
下载了大部分nltk软件包。但是当我尝试安装panlex_lite语料库时,它总是卡住。然后我从互联网上下载了大小为2.2 GB的panlex_lite.zip
文件。但我不知道如何将下载的zip文件下载到nltk数据并更新NLTK Downloader。我是Ubuntu 16.10机器,python版本是3.5。请帮帮我。
答案 0 :(得分:0)
你有几个选择:
选项1
使用以下内容,类似于您尝试过的内容
>>> import nltk
>>> nltk.download('panlex_lite')
选项2
对python
运行以下命令python -m nltk.downloader panlex_lite
选项3
访问this链接可以找到Panalex本身,小心它的2.1gb。记下this,其中指出nltk
将查找数据的位置,例如在/usr/share/nltk_data
中的unix上,以便从nltk
以外的其他来源下载数据1}}下载程序,请务必将其移动到正确的文件夹中。
答案 1 :(得分:0)
尝试earthy
:
pip install earthy
<强> TL; DR 强>:
from earthy.nltk_wrapper import download
path_to_nltk_data = '/home/yourusername/nltk_data/'
earthy.download('all', path_to_nltk_data) # Excludes the third party (non-NLTK) packages.
完全下载panlex_lite
:
from earthy.nltk_wrapper import download
download('panlex_lite', path_to_nltk_data)
下载非本地托管在nltk_data
github上的所有第三方数据集:
from earthy.nltk_wrapper import download
download('third_party', path_to_nltk_data')