Web爬虫更适合吗?

时间:2014-10-08 20:54:33

标签: python html web-crawler

TL; DR版本: 我只听说过智能对话中的网络抓取工具。我只想知道他们可以遵循以下特定路径:

first page (has lot of links) -->go to links specified-->go to
 links(specified, yes again)-->go to certain link-->reach final page
 and download source.

我搜索了一下,遇到了Scrappy。但我不确定我是否完全理解网络抓取工具的开头,如果斗志可以帮助我遵循我想要的特定路径。

长版

我想提取一组静态网页的一些文字。这些网页非常简单,只有基本的HTML。我使用pythonurllib来访问URL,提取文本并使用它。很快我意识到我将基本上访问所有这些页面并将URL复制粘贴到我的程序中,这很烦人。我想知道这是否更适合网络爬虫。我想访问this 页。然后只选择几个organisms(我有一个列表)。点击它们,您可以看到this页面。如果您在表格下方查看 - MTases active in the genome,则Enzymeshyperlinks。将这些内容粘贴到this页面。在右侧有一个名为Sequence Data的链接。点击后,它会进入页面,右下方有一个带黄色标题的小桌子。在它下面有一个条目DNA (FASTA STYLE。单击视图将导致我感兴趣的页面,并希望从中下载页面源。

1 个答案:

答案 0 :(得分:0)

我认为您肯定正在寻找网络抓取工具以帮助您实现这一目标。您还可以查看Norconex HTTP Collector我知道可以让您关注页面上的链接而不存储该页面,如果它只是您的列表页面。该抓取工具允许您在提取其链接后过滤掉页面。最终,您可以配置正确的过滤器,以便只下载与您想要的模式匹配的页面供您处理(无论是基于爬网深度,URL模式,内容模式等)。