使用Stanford CoreNLP / NER提取(书籍,文章等)标题?

时间:2013-12-06 02:21:45

标签: java nlp stanford-nlp named-entity-recognition named-entity-extraction

是否有某些标签序列可能表示网页中的标题?例如,从其亚马逊页面中提取书籍的标题,其中其他文本/句子可能具有相似的句子结构。我觉得这是一项非常基本的任务,但无法弄清楚如何使用斯坦福大学的NER / CoreNLP。

提前致谢!

2 个答案:

答案 0 :(得分:1)

不使用CoreNLP库的解决方案 - 如果您要在网页上查找标题,为什么不解析<title>代码?

例如,饥饿游戏(http://www.amazon.com/Hunger-Games-Trilogy-Boxset/dp/0545626382/ref=sr_1_2?s=books&ie=UTF8&qid=1386299491&sr=1-2&keywords=hunger+games)的亚马逊书页的标题是:

  

饥饿游戏三部曲Boxset:Suzanne Collins:9780545626385:Amazon.com:书籍

当然,标题标签取决于网站,它们可以与页面相关,也可以只是一般网站的标题。

答案 1 :(得分:0)

检测一系列html标签实际上并不是一个NLP问题。见web scraping。您可以编写一组regex / xquery / etc.规则来检测特定语料库中的标题。 Pdfs和其他文档也有一些你可以利用的标记,请参阅tika parser

对于科学文章,你可以轻易指望标题是在几个换行符之前的第一件事,或类似的东西。