应用错误收集

我想用关键词从Google 5grams中提取自然语言。然后我需要清除停止词（介词，代词等）的结果。接下来我想用一个数字替换'语言'结果。我有一个excel文件，其中包含大量单词和相应的分数。最后我想运行（双侧重复）ANOVA。

我从culturomics为python 2.x找到了这个有用的脚本，它完成了第一步。我的输入是＆＃34;宝石 _NOUN＆＃34; （仅限名词的通配符）。需要重复此输入以涵盖大多数其他内容单词;即＆＃34;宝石 _VERB＆＃34; ＆＃34; ... * _ADJ＆＃34; ＆＃34; ... * _ADV＆＃34;。每个输入的输出是tsv file。在第3行中，我有关键字和结果以及语言词类别。所以我需要摆脱关键字＆amp;单词类别和存储都以可访问的方式产生，以便进一步处理。存储在python数组中？

另一种可能性是使用NLTK包中的concordance function来检索所需的单词。然后使用清洁停止词功能（我被告知存在）并用数字替换单词。但我没有追求这个选择。

在我继续之前，我想我会问。是否有其他可用的脚本？对Python不熟悉哪种方法更好？

我希望检索40个关键字的结果，这给了我来自Google 5grams的200个单词。理想情况下，我想调整并应用Twitter和其他辅助数据的脚本。非常感谢！

在Python中提取和处理5grams。 NLTK API或替代方案？

1 个答案: