我经常参加很多图书馆。布鲁克林公共图书馆,皇后区公共图书馆,纽约公共图书馆和纽约市立大学图书馆。当我想要一本书时,我必须去所有4个在线目录并搜索它。我想编写一个程序,将书籍,作者,ISBN或任何关键字作为字符串,然后返回4搜索结果,就像我手动访问每个目录网站一样。我认为这将被视为网络爬虫。我非常擅长学习编程教程,当我知道自己在寻找什么时,我会搜索一些东西。我真的不知道从哪里开始,并希望得到一些建议。谢谢你提前。
答案 0 :(得分:1)
以下是一些基于python的脚本以及如何自动抓取/抓取每个在线目录的示例。这可以用任何语言完成,但我认为python是最简单的。
Simple Web Crawler (Python recipe)
或者,如果没有预先编写的脚本,您可以使用urllib2获取网页源代码,然后使用BeautifulSoup之类的内容解析该源代码。使用已解析的源,执行一些关键字检查,并显示结果。