我已经做了很多关于此的研究并阅读了几篇论文,检查了所有的SO Q& A's但我仍然不清楚。
I'm trying to setup a small search engine. I am crawling data using nutch and
have integrated it with solr for front end and indexing.
After crawl, I have unstructured data i.e content of entire page I crawled and
I need to structure this data into sets.
例如:我抓取了一个页面,其中包含有关任何产品的信息,我有原始文本,其中包含产品说明,尺寸,尺寸等。
我的目标:提取我想说的关键字:维度 - >存储在DB列中 提取与维度相关的信息 - >存储在同一行(另一列)
所以,我在一个表中有关键字和描述,我根据查询获取并输出给用户。
我不确定如何去构建/获取我需要的信息,如果可能的话,我希望使用java来做到这一点。我读了几篇文章,但我不能跟随。任何帮助/指导将不胜感激。
如果您需要更多信息,请告诉我。感谢您的时间和帮助
答案 0 :(得分:2)
你可以使用像GATE(https://gate.ac.uk/),Apache OpenNLP(https://opennlp.apache.org/),Minorthird(http://sourceforge.net/projects/minorthird/)等nlp工具。
您可以在GATE中编写jape语法,根据文本中的单词创建注释。例如,您可以将dimension, measurements, proportions
等注释为dimension
,然后在下一句中查找数字。
您可以在此处查看其他nlp工具:https://www.quora.com/What-are-the-best-Java-open-source-NLP-toolkits
答案 1 :(得分:0)
试试CogComp-NLP:http://deagol.cs.illinois.edu:8080/
它在Java中可用,带有Python api。