从网页中提取含义的完整内容

时间:2009-02-19 01:27:57

标签: html-parsing web-crawler text-mining

我正在使用我的抓取工具挖掘网页内容进行一些分析。网页通常在文章正文周围包含混乱(例如广告,不必要的图像和无关的链接),这会使用户分散实际内容。

考虑到没有标准定义网页中新闻报道/博客文章/论坛评论/文章的实际位置,提取合理内容是我理解的难题。

我可以找到一些像这样的开源解决方案:https://metacpan.org/pod/HTML::ContentExtractor

但我很好奇是否有人处理过此事并获得合理的成功率。这似乎是一个相当普遍的问题,我想相信很多专家都在那里。我更喜欢基于JAVA的解决方案,但这不是一个硬性规则。请提供一些意见。我将深深体会到。

2 个答案:

答案 0 :(得分:1)

理想情况下,您需要查找RSS源以获取原始内容。

整体结构并不是标准。在HTML中的含义。作者在其页面中定义了不同的元素。搜索引擎已经在这个领域投入了大量资金,他们有自己的秘诀,用于索引内容并获得某种意义。用于搜索排名的结构。

在我们拥有长期预测的“语义网”之前,我们只能对任意HTML页面的结构和含义进行有根据的猜测。

但是,理论上:

寻找标题标签。这些应该为您提供了从哪里开始阅读的线索,并希望大纲对内容的重要性顺序。

查找常用元素id和类。结构良好的网站可能包含<div id="content"><div class="article">之类的内容,这些内容与目前的语义相同。还要了解常见CMS平台使用的标准元素名称,如WordPress(“post”)或Drupal(“node”)。通常这些将用于标记内容。

最后但并非最不重要的是,请寻找microformats

答案 1 :(得分:0)

现在有一个number of projects以此任务为主要目标。

NPM包WCE(Javascript)很有趣,因为它使用了许多其他内容提取模块。

抱歉,我打算早点回复这个问题,但我很忙。