Question

任何人都知道一个好的开源抓取工具我只能提取页面内容，这意味着只有没有照片/广告/菜单等的文字＆＃39;？

Answer 1

如果您知道HTML中的广告内容，Norconex HTTP Collector可以帮助您实现这一目标。它是一个非常灵活的开源Web爬虫。配置其导入程序模块时，您可以告诉它在某些标记之前和之后删除文本块，或者删除已知标记之间的内容。

如果您知道某个网站在这些代码之间展示广告，请告知您：

<div class="myAdd">... add here ...</div>

然后相关的导入器部分将如下所示：

<transformer class="com.norconex.importer.transformer.impl.StripBetweenTransformer"
      inclusive="true">
  <stripBetween>
      <start><![CDATA[<div class="myAdd">]]></start>
      <end><![CDATA[</div>]]></end>
  </stripBetween>
</transformer>

您可以使用相同的原则来删除页眉和页脚。如果您不希望抓取图像，则可以轻松过滤掉它们。

Answer 2

您可以从Scrapinghub.com尝试Portia

抓取工具只提取内容，不包括照片/广告等

2 个答案: