应用错误收集

从网页中提取含义的完整内容

时间：2009-02-19 01:27:57

标签： html-parsing web-crawler text-mining

我正在使用我的抓取工具挖掘网页内容进行一些分析。网页通常在文章正文周围包含混乱（例如广告，不必要的图像和无关的链接），这会使用户分散实际内容。

考虑到没有标准定义网页中新闻报道/博客文章/论坛评论/文章的实际位置，提取合理内容是我理解的难题。

我可以找到一些像这样的开源解决方案：https://metacpan.org/pod/HTML::ContentExtractor

但我很好奇是否有人处理过此事并获得合理的成功率。这似乎是一个相当普遍的问题，我想相信很多专家都在那里。我更喜欢基于JAVA的解决方案，但这不是一个硬性规则。请提供一些意见。我将深深体会到。

2 个答案:

答案 0 :(得分：1)

理想情况下，您需要查找RSS源以获取原始内容。

整体结构并不是标准。在HTML中的含义。作者在其页面中定义了不同的元素。搜索引擎已经在这个领域投入了大量资金，他们有自己的秘诀，用于索引内容并获得某种意义。用于搜索排名的结构。

在我们拥有长期预测的“语义网”之前，我们只能对任意HTML页面的结构和含义进行有根据的猜测。

但是，理论上：

寻找标题标签。这些应该为您提供了从哪里开始阅读的线索，并希望大纲对内容的重要性顺序。

查找常用元素id和类。结构良好的网站可能包含<div id="content">和<div class="article">之类的内容，这些内容与目前的语义相同。还要了解常见CMS平台使用的标准元素名称，如WordPress（“post”）或Drupal（“node”）。通常这些将用于标记内容。

最后但并非最不重要的是，请寻找microformats。

答案 1 :(得分：0)

现在有一个number of projects以此任务为主要目标。

NPM包WCE（Javascript）很有趣，因为它使用了许多其他内容提取模块。

抱歉，我打算早点回复这个问题，但我很忙。