任何人都知道一个好的开源抓取工具我只能提取页面内容,这意味着只有没有照片/广告/菜单等的文字'?
答案 0 :(得分:0)
如果您知道HTML中的广告内容,Norconex HTTP Collector可以帮助您实现这一目标。它是一个非常灵活的开源Web爬虫。配置其导入程序模块时,您可以告诉它在某些标记之前和之后删除文本块,或者删除已知标记之间的内容。
如果您知道某个网站在这些代码之间展示广告,请告知您:
<div class="myAdd">... add here ...</div>
然后相关的导入器部分将如下所示:
<transformer class="com.norconex.importer.transformer.impl.StripBetweenTransformer"
inclusive="true">
<stripBetween>
<start><![CDATA[<div class="myAdd">]]></start>
<end><![CDATA[</div>]]></end>
</stripBetween>
</transformer>
您可以使用相同的原则来删除页眉和页脚。如果您不希望抓取图像,则可以轻松过滤掉它们。
答案 1 :(得分:0)
您可以从Scrapinghub.com尝试Portia