TL; DR版本: 我只听说过智能对话中的网络抓取工具。我只想知道他们可以遵循以下特定路径:
first page (has lot of links) -->go to links specified-->go to
links(specified, yes again)-->go to certain link-->reach final page
and download source.
我搜索了一下,遇到了Scrappy。但我不确定我是否完全理解网络抓取工具的开头,如果斗志可以帮助我遵循我想要的特定路径。
长版
我想提取一组静态网页的一些文字。这些网页非常简单,只有基本的HTML
。我使用python
和urllib
来访问URL
,提取文本并使用它。很快我意识到我将基本上访问所有这些页面并将URL
复制粘贴到我的程序中,这很烦人。我想知道这是否更适合网络爬虫。我想访问this
页。然后只选择几个organisms
(我有一个列表)。点击它们,您可以看到this页面。如果您在表格下方查看 - MTases active in the genome
,则Enzymes
为hyperlinks
。将这些内容粘贴到this页面。在右侧有一个名为Sequence Data
的链接。点击后,它会进入页面,右下方有一个带黄色标题的小桌子。在它下面有一个条目DNA (FASTA STYLE
。单击视图将导致我感兴趣的页面,并希望从中下载页面源。
答案 0 :(得分:0)
我认为您肯定正在寻找网络抓取工具以帮助您实现这一目标。您还可以查看Norconex HTTP Collector我知道可以让您关注页面上的链接而不存储该页面,如果它只是您的列表页面。该抓取工具允许您在提取其链接后过滤掉页面。最终,您可以配置正确的过滤器,以便只下载与您想要的模式匹配的页面供您处理(无论是基于爬网深度,URL模式,内容模式等)。