通过排除导航和Chrome内容从HTML页面中提取纯内容/文本

时间:2009-11-08 15:42:05

标签: html artificial-intelligence nlp html-content-extraction text-extraction

我正在抓取新闻网站并希望提取新闻标题,新闻摘要(第一段)等

我插入了webkit解析器代码,可以轻松地将网页导航为树。为了消除导航和其他非新闻内容,我采用文章的文本版本(减去html标签,webkit提供相同的api)。然后我运行diff算法比较来自同一网站的各种文章的文本,这导致类似的文本被删除。这给了我内容减去常见的导航内容等。

尽管采用了上述方法,但我的最终文本中仍然存在一些垃圾。这导致提取不正确的新闻摘要。错误率是10件中的5件,即50%。错误,如

你能

吗?
  1. 建议提取纯内容的替代策略,

  2. 学习自然语言能否帮助从这些文章中提取正确的摘要?

  3. 您如何解决上述问题?

  4. 这些研究论文是否相同?

  5. 此致

    Ankur Gupta

3 个答案:

答案 0 :(得分:3)

您可以查看我在Google代码上的boilerpipe项目,并使用Google AppEngine上的实时网络应用程序(从那里链接)在您选择的网页上进行测试。

我正在研究这个领域,并撰写了一些关于HTML页面中内容提取/样板删除的论文。请参阅“使用浅文本功能进行锅炉板检测”,并在VideoLectures.net上观看相应的视频。本文应该让您对该领域的最新技术有一个很好的了解。

干杯,

基督教

答案 1 :(得分:2)

对于问题(1),我不确定。我以前没有这样做过。也许其中一个答案会有所帮助。

对于问题(2),摘要的自动创建不是一个发达的领域。它通常被称为“句子选择”,因为现在的典型方法是选择整个句子。

对于问题(3),从机器学习中创建摘要的基本方法是:

  1. 创建现有摘要的语料库
  2. 以有用的方式注释摘要。例如,您可能想要指出是否选择了原文中的每个句子以及为什么(或者为什么不)。
  3. 在语料库中训练某种分类器,然后用它来对新文章中的句子进行分类。
  4. 我最喜欢的机器学习参考是Tom Mitchell的Machine Learning。它列出了许多实现步骤(3)的方法。

    对于问题(4),我确信有一些论文是因为我的顾问去年提到过,但我不知道从哪里开始,因为我不是该领域的专家。

答案 2 :(得分:0)

我不知道它是如何工作的,但请查看可读性。它完全符合您的要求。