在Python中提取和处理5grams。 NLTK API或替代方案?

时间:2015-12-04 14:12:54

标签: python regex python-3.x nltk

我想用关键词从Google 5grams中提取自然语言。然后我需要清除停止词(介词,代词等)的结果。接下来我想用一个数字替换'语言'结果。我有一个excel文件,其中包含大量单词和相应的分数。最后我想运行(双侧重复)ANOVA。

我从culturomics为python 2.x找到了这个有用的脚本,它完成了第一步。我的输入是"宝石 _NOUN" (仅限名词的通配符)。需要重复此输入以涵盖大多数其他内容单词;即"宝石 _VERB" " ... * _ADJ" " ... * _ADV"。每个输入的输出是tsv file。在第3行中,我有关键字和结果以及语言词类别。所以我需要摆脱关键字&单词类别和存储都以可访问的方式产生,以便进一步处理。存储在python数组中?

另一种可能性是使用NLTK包中的concordance function来检索所需的单词。然后使用清洁停止词功能(我被告知存在)并用数字替换单词。但我没有追求这个选择。

在我继续之前,我想我会问。是否有其他可用的脚本?对Python不熟悉哪种方法更好?

我希望检索40个关键字的结果,这给了我来自Google 5grams的200个单词。理想情况下,我想调整并应用Twitter和其他辅助数据的脚本。 非常感谢!

1 个答案:

答案 0 :(得分:0)

我将使用选项A(调整现有的文化组学脚本)和/或Alvas建议。一致性函数只读取.txt和.xml文件(因此实际上无法读取URL输入)并且只允许单个单词输入。这可能会在将来更新。根据这个discussion,似乎有一个多字输入的图形解决方案。我当然可以尝试使用concordance crawler(虽然没有深入研究)收集数据,将结果写入兼容文件,然后开始分析。但这增加了脚本中的另一个步骤,我不相信使用它。