抓取工具只提取内容,不包括照片/广告等

时间:2014-11-04 13:13:18

标签: web web-crawler

任何人都知道一个好的开源抓取工具我只能提取页面内容,这意味着只有没有照片/广告/菜单等的文字'?

2 个答案:

答案 0 :(得分:0)

如果您知道HTML中的广告内容,Norconex HTTP Collector可以帮助您实现这一目标。它是一个非常灵活的开源Web爬虫。配置其导入程序模块时,您可以告诉它在某些标记之前和之后删除文本块,或者删除已知标记之间的内容。

如果您知道某个网站在这些代码之间展示广告,请告知您:

<div class="myAdd">... add here ...</div>

然后相关的导入器部分将如下所示:

<transformer class="com.norconex.importer.transformer.impl.StripBetweenTransformer"
      inclusive="true">
  <stripBetween>
      <start><![CDATA[<div class="myAdd">]]></start>
      <end><![CDATA[</div>]]></end>
  </stripBetween>
</transformer>

您可以使用相同的原则来删除页眉和页脚。如果您不希望抓取图像,则可以轻松过滤掉它们。

答案 1 :(得分:0)

您可以从Scrapinghub.com尝试Portia