我正在尝试为一些网站中的名字拼凑一份bios列表。
我有姓名和相应的网站:
name website
-----------------
John Doe abc.com
Steve J apple.com
例如,我想搜索John Doe @ http://abc.com
我想获取找到John Doe的网站中的网址:
前:
http://abc.com/board/programmers.php
http://abc.com/team/list.php
http://abc.com/index/welcome.php
当然,我想在每个网站上遵守robots.txt。我不是数据挖掘,我已经知道一个人'X'与一个网站'Y'相关联以列出他的生物。我相信网站管理员不介意!
我遇到了Scrapy,但我不知道在网站上找到该名称的确切网址。我所拥有的只是网站的根目录,我希望抓取工具抓取每个链接的页面。
在输入此内容时,我开始想知道为什么不将搜索查询和网站输入谷歌并以自动方式退出结果 - 但谷歌不允许你在他们的ToS中这样做我认为。