在找到确认robots.txt时,如何通过网站抓取搜索名称并返回网址?

时间:2011-08-17 20:58:33

标签: python screen-scraping web-crawler web-scraping scrapy

我正在尝试为一些网站中的名字拼凑一份bios列表。

我有姓名和相应的网站:

name      website
-----------------
John Doe  abc.com
Steve J   apple.com

例如,我想搜索John Doe @ http://abc.com

我想获取找到John Doe的网站中的网址:

前:

http://abc.com/board/programmers.php
http://abc.com/team/list.php
http://abc.com/index/welcome.php

当然,我想在每个网站上遵守robots.txt。我不是数据挖掘,我已经知道一个人'X'与一个网站'Y'相关联以列出他的生物。我相信网站管理员不介意!

我遇到了Scrapy,但我不知道在网站上找到该名称的确切网址。我所拥有的只是网站的根目录,我希望抓取工具抓取每个链接的页面。

在输入此内容时,我开始想知道为什么不将搜索查询和网站输入谷歌并以自动方式退出结果 - 但谷歌不允许你在他们的ToS中这样做我认为。

1 个答案:

答案 0 :(得分:0)

使用搜索引擎(通过抓取或使用其API(如果您可以遵循其使用条款))绝对是解决问题的方法。

例如参见how to do it with DuckDuckGo