文本挖掘:何时使用解析器,标记器,NER工具?

时间:2010-06-24 09:18:36

标签: python nlp nltk

我正在开展关于挖掘博客内容的项目,我需要帮助区分使用哪种工具。我何时使用解析器,何时使用标记器,何时需要使用NER工具?

例如,我想找出几个博客之间最受关注的主题/主题;使用词性标注器来获取名词并进行频率计数?这可能是不够的,因为非常通用的术语可以弹出正确吗?或者我有一个类别列表和我可以匹配的这些同义词?

顺便说一句,我正在使用nltk,但我正在看stanford标记或解析器,因为有几个家伙说它很好。

1 个答案:

答案 0 :(得分:3)

您可能想要阅读主题模型,而不是尝试重新发明轮子,这主要是创建经常一起出现的单词集群。 Mallet有一个随时可用的工具包来执行这样的任务:http://mallet.cs.umass.edu/topics.php

要回答您的原始问题,POS标记器,解析器和NER工具通常不用于主题识别,但更多地用于信息提取等任务,其目标是在文档中识别特定的参与者,事件,地点,时间等...例如,如果你有一个简单的句子,如“约翰把苹果交给了玛丽”。您可以使用依赖解析器来确定John是主语,Apple是对象,而Mary是介词对象;因此你知道约翰是给予者而玛丽是接收者而不是反过来。