我在Mysql表中有大量文本。我想做一些统计分析,然后使用NLTK工具包对我的文本进行一些NLP。 我有两个选择:
后者看起来相当复杂,我没有发现任何实际描述如何使用它的文章我只发现:Creating a MongoDB backed corpus reader使用MongoDB作为其数据库,代码非常复杂,还需要知道MongoDB 。另一方面,前者似乎非常简单,但会导致从DB中提取文本的开销。
现在的问题是NLTK中语料库的优势是什么?换句话说,如果我接受挑战并深入研究覆盖NTLK方法,以便它可以从MySQL数据库中读取,那值得麻烦吗?将我的文本转换为语料库会给我一些我不能(或有很多困难)使用普通NLTK函数的东西吗?
如果您对将MySQL连接到NLTK有所了解,请告诉我。 感谢
答案 0 :(得分:3)
经过阅读后我发现了答案。
有几个非常有用的功能,例如collocations,search,common_context,类似,可用于在NLTK中保存为语料库的文本。自己实施它们需要相当长的时间。如果从数据库中选择我的文本并放入一个文件并使用nltk.Text
函数,那么我可以使用我之前提到的所有函数,而无需编写这么多行代码甚至覆盖方法,这样我就可以连接到MySql.Here是更多信息的链接:
nltk.Text