应用错误收集

使用一个搜索字符串搜索4个网站目录

时间：2011-09-28 00:37:05

标签： algorithm web-crawler

我经常参加很多图书馆。布鲁克林公共图书馆，皇后区公共图书馆，纽约公共图书馆和纽约市立大学图书馆。当我想要一本书时，我必须去所有4个在线目录并搜索它。我想编写一个程序，将书籍，作者，ISBN或任何关键字作为字符串，然后返回4搜索结果，就像我手动访问每个目录网站一样。我认为这将被视为网络爬虫。我非常擅长学习编程教程，当我知道自己在寻找什么时，我会搜索一些东西。我真的不知道从哪里开始，并希望得到一些建议。谢谢你提前。

1 个答案:

答案 0 :(得分：1)

以下是一些基于python的脚本以及如何自动抓取/抓取每个在线目录的示例。这可以用任何语言完成，但我认为python是最简单的。

Simple Web Crawler (Python recipe)

Scrapy

或者，如果没有预先编写的脚本，您可以使用urllib2获取网页源代码，然后使用BeautifulSoup之类的内容解析该源代码。使用已解析的源，执行一些关键字检查，并显示结果。