我希望从非常短的文本示例
中提取名称和地点"cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-mercedes - monaco".
这个数据目前在MySQL数据库中,我(几乎)为每个运动员都有一个单独的记录,虽然名字有时拼写错误等等。
我想提取运动员和位置。 我通常使用PHP工作,但无法找到用于实体提取的库(我可能希望将来更深入地了解某些NLP和ML)。
根据我的发现,LingPipe和NLTK似乎是最推荐的,但我无法弄清楚是否真的适合我的目的,或者其他什么会更好。
我没有用Java或Python编程,所以在开始学习新语言之前,我希望能得到一些关于我应该遵循的路线或其他建议的建议。
答案 0 :(得分:4)
您所描述的是named entity recognition。因此,如果您还没有看过,我建议您查看有关此主题的其他questions。 This对我来说似乎是最有用的答案。
我无法评论NLTK或LingPipe是否最适合此任务,尽管通过查看答案,看起来还有很多其他资源都是用Java编写的。
使用NLTK的一个优点是Python作为一种语言非常容易使用。另一个优点是NLTK book(免费提供)同时提供Python和NLTK的介绍,这对你有用。