使用一个搜索字符串搜索4个网站目录

时间:2011-09-28 00:37:05

标签: algorithm web-crawler

我经常参加很多图书馆。布鲁克林公共图书馆,皇后区公共图书馆,纽约公共图书馆和纽约市立大学图书馆。当我想要一本书时,我必须去所有4个在线目录并搜索它。我想编写一个程序,将书籍,作者,ISBN或任何关键字作为字符串,然后返回4搜索结果,就像我手动访问每个目录网站一样。我认为这将被视为网络爬虫。我非常擅长学习编程教程,当我知道自己在寻找什么时,我会搜索一些东西。我真的不知道从哪里开始,并希望得到一些建议。谢谢你提前。

1 个答案:

答案 0 :(得分:1)

以下是一些基于python的脚本以及如何自动抓取/抓取每个在线目录的示例。这可以用任何语言完成,但我认为python是最简单的。

Simple Web Crawler (Python recipe)

Scrapy

或者,如果没有预先编写的脚本,您可以使用urllib2获取网页源代码,然后使用BeautifulSoup之类的内容解析该源代码。使用已解析的源,执行一些关键字检查,并显示结果。