是否存在从非结构化文本中提取信息的任何内容(新闻文章,书籍等)

时间:2014-12-04 00:41:26

标签: information-extraction

我一直在努力寻找能够从非结构化文本(新闻文章,书籍等)中提取信息的程序。

我最终的目标是创建一个程序,可以采用常规句子并将其缓存在数据库中,就像谷歌一样,但没有所有重复的信息。

让我们以NLTK为例:"周四早上八点钟,Arthur感觉不太好。"

我想要提取的东西是:

时间:晚上8点

日期:星期四

人:亚瑟

行动:没有感觉良好

有没有可以做到这一点的程序?

我尝试过使用NLTK,但我似乎找不到任何好方法来完成提取信息。

1 个答案:

答案 0 :(得分:0)

此问题称为Fine grained entity recognition。不,没有可以添加这种语义的工具(研究工作除外) 首先,您可以使用实体识别器使用适当的模型识别人员和时间。
您可以按照@Junuxx的建议识别句子解析中的操作。
也请尝试Wikify 谢谢。