应用错误收集

时间：2014-12-04 00:41:26

标签： information-extraction

我一直在努力寻找能够从非结构化文本（新闻文章，书籍等）中提取信息的程序。

我最终的目标是创建一个程序，可以采用常规句子并将其缓存在数据库中，就像谷歌一样，但没有所有重复的信息。

让我们以NLTK为例：＆＃34;周四早上八点钟，Arthur感觉不太好。＆＃34;

我想要提取的东西是：

时间：晚上8点

日期：星期四

人：亚瑟

行动：没有感觉良好

有没有可以做到这一点的程序？

我尝试过使用NLTK，但我似乎找不到任何好方法来完成提取信息。

答案 0 :(得分：0)

此问题称为Fine grained entity recognition。不，没有可以添加这种语义的工具（研究工作除外）首先，您可以使用实体识别器使用适当的模型识别人员和时间。
您可以按照@Junuxx的建议识别句子解析中的操作。
也请尝试Wikify 谢谢。