我正在开发一个业余爱好项目,我必须抓取不同的网页,进行一些分析并回答一些问题。例如,网页可以包含以下数据:
一人在抢劫中受伤 昨晚企图抢劫案中有两人受伤 警方正在寻找三名因抢劫未遂而受伤的人。
我有兴趣回答每个事件中有多少人受伤的问题。我的问题是我该怎么做。是否有任何图书馆可以帮助我完成这项任务?
答案 0 :(得分:1)
查看Jena,似乎是您正在寻找的内容
答案 1 :(得分:1)
我猜你正在进入openNLP。您需要拥有自己的算法才能获得问答系统所需的答案。以下内容可以帮助您
Apache open nlp - > http://opennlp.apache.org/
Apache Jena - > http://jena.apache.org/
斯坦福开放nlp - > http://nlp.stanford.edu/software/corenlp.shtml我猜还有其他几个,但这些都很受欢迎。
答案 2 :(得分:1)
试用Stanford CoreNLP演示。它用作词性标注器。它生成一个XML输出和漂亮的打印输出,并在“一个人在抢劫中受伤”中显示“一个”作为数字。试一试..这对你真的很有帮助。 然后,您可以在java中使用DOM解析器来解析XML文件,您可以通过检查文件中的“NER”标记并查看它是否为数字来轻松地分离出“one”。