应用错误收集

时间：2013-12-06 02:21:45

标签： java nlp stanford-nlp named-entity-recognition named-entity-extraction

是否有某些标签序列可能表示网页中的标题？例如，从其亚马逊页面中提取书籍的标题，其中其他文本/句子可能具有相似的句子结构。我觉得这是一项非常基本的任务，但无法弄清楚如何使用斯坦福大学的NER / CoreNLP。

提前致谢！

答案 0 :(得分：1)

不使用CoreNLP库的解决方案 - 如果您要在网页上查找标题，为什么不解析<title>代码？

饥饿游戏三部曲Boxset：Suzanne Collins：9780545626385：Amazon.com：书籍

当然，标题标签取决于网站，它们可以与页面相关，也可以只是一般网站的标题。

答案 1 :(得分：0)

检测一系列html标签实际上并不是一个NLP问题。见web scraping。您可以编写一组regex / xquery / etc.规则来检测特定语料库中的标题。 Pdfs和其他文档也有一些你可以利用的标记，请参阅tika parser。

对于科学文章，你可以轻易指望标题是在几个换行符之前的第一件事，或类似的东西。