我正在使用我的抓取工具挖掘网页内容进行一些分析。网页通常在文章正文周围包含混乱(例如广告,不必要的图像和无关的链接),这会使用户分散实际内容。
考虑到没有标准定义网页中新闻报道/博客文章/论坛评论/文章的实际位置,提取合理内容是我理解的难题。
我可以找到一些像这样的开源解决方案:https://metacpan.org/pod/HTML::ContentExtractor
但我很好奇是否有人处理过此事并获得合理的成功率。这似乎是一个相当普遍的问题,我想相信很多专家都在那里。我更喜欢基于JAVA的解决方案,但这不是一个硬性规则。请提供一些意见。我将深深体会到。
答案 0 :(得分:1)
理想情况下,您需要查找RSS源以获取原始内容。
整体结构并不是标准。在HTML中的含义。作者在其页面中定义了不同的元素。搜索引擎已经在这个领域投入了大量资金,他们有自己的秘诀,用于索引内容并获得某种意义。用于搜索排名的结构。
在我们拥有长期预测的“语义网”之前,我们只能对任意HTML页面的结构和含义进行有根据的猜测。
但是,理论上:
寻找标题标签。这些应该为您提供了从哪里开始阅读的线索,并希望大纲对内容的重要性顺序。
查找常用元素id和类。结构良好的网站可能包含<div id="content">
和<div class="article">
之类的内容,这些内容与目前的语义相同。还要了解常见CMS平台使用的标准元素名称,如WordPress(“post”)或Drupal(“node”)。通常这些将用于标记内容。
最后但并非最不重要的是,请寻找microformats。
答案 1 :(得分:0)