我应该使用LingPipe或NLTK来提取名称和地点吗?

时间:2009-10-31 22:22:16

标签: nlp nltk lingpipe

我希望从非常短的文本示例

中提取名称和地点
 "cardinals vs jays in toronto"
 " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced"
"jenson button - pole position, brawn-mercedes - monaco".

这个数据目前在MySQL数据库中,我(几乎)为每个运动员都有一个单独的记录,虽然名字有时拼写错误等等。

我想提取运动员和位置。 我通常使用PHP工作,但无法找到用于实体提取的库(我可能希望将来更深入地了解某些NLPML)。

根据我的发现,LingPipeNLTK似乎是最推荐的,但我无法弄清楚是否真的适合我的目的,或者其他什么会更好。

我没有用Java或Python编程,所以在开始学习新语言之前,我希望能得到一些关于我应该遵循的路线或其他建议的建议。

1 个答案:

答案 0 :(得分:4)

您所描述的是named entity recognition。因此,如果您还没有看过,我建议您查看有关此主题的其他questionsThis对我来说似乎是最有用的答案。

我无法评论NLTK或LingPipe是否最适合此任务,尽管通过查看答案,看起来还有很多其他资源都是用Java编写的。

使用NLTK的一个优点是Python作为一种语言非常容易使用。另一个优点是NLTK book(免费提供)同时提供Python和NLTK的介绍,这对你有用。