我一直在努力寻找能够从非结构化文本(新闻文章,书籍等)中提取信息的程序。
我最终的目标是创建一个程序,可以采用常规句子并将其缓存在数据库中,就像谷歌一样,但没有所有重复的信息。
让我们以NLTK为例:"周四早上八点钟,Arthur感觉不太好。"
我想要提取的东西是:
时间:晚上8点
日期:星期四
人:亚瑟行动:没有感觉良好
有没有可以做到这一点的程序?
我尝试过使用NLTK,但我似乎找不到任何好方法来完成提取信息。
答案 0 :(得分:0)
此问题称为Fine grained entity recognition
。不,没有可以添加这种语义的工具(研究工作除外)
首先,您可以使用实体识别器使用适当的模型识别人员和时间。
您可以按照@Junuxx的建议识别句子解析中的操作。
也请尝试Wikify
谢谢。