Question

TL; DR版本： 我只听说过智能对话中的网络抓取工具。我只想知道他们可以遵循以下特定路径：

first page (has lot of links) -->go to links specified-->go to
 links(specified, yes again)-->go to certain link-->reach final page
 and download source.

我搜索了一下，遇到了Scrappy。但我不确定我是否完全理解网络抓取工具的开头，如果斗志可以帮助我遵循我想要的特定路径。

长版

我想提取一组静态网页的一些文字。这些网页非常简单，只有基本的HTML。我使用python和urllib来访问URL，提取文本并使用它。很快我意识到我将基本上访问所有这些页面并将URL复制粘贴到我的程序中，这很烦人。我想知道这是否更适合网络爬虫。我想访问this 页。然后只选择几个organisms（我有一个列表）。点击它们，您可以看到this页面。如果您在表格下方查看 - MTases active in the genome，则Enzymes为hyperlinks。将这些内容粘贴到this页面。在右侧有一个名为Sequence Data的链接。点击后，它会进入页面，右下方有一个带黄色标题的小桌子。在它下面有一个条目DNA (FASTA STYLE。单击视图将导致我感兴趣的页面，并希望从中下载页面源。

Answer 1

我认为您肯定正在寻找网络抓取工具以帮助您实现这一目标。您还可以查看Norconex HTTP Collector我知道可以让您关注页面上的链接而不存储该页面，如果它只是您的列表页面。该抓取工具允许您在提取其链接后过滤掉页面。最终，您可以配置正确的过滤器，以便只下载与您想要的模式匹配的页面供您处理（无论是基于爬网深度，URL模式，内容模式等）。

Web爬虫更适合吗？

1 个答案: