如何使用爬虫或刮刀获取网站的所有网址?

时间:2013-07-31 08:33:56

标签: python url web-crawler scraper

我必须从网站上获取许多网址,然后我要在excel文件中复制这些网址。 我正在寻找一种自动方式来做到这一点。该网站的结构有一个主页,有大约300个链接,每个链接内有2或3个链接,对我来说很有趣。 有什么建议吗?

4 个答案:

答案 0 :(得分:1)

如果您想在Python中开发解决方案,那么我可以推荐Scrapy框架。

就将数据插入Excel工作表而言,有一些方法可以直接进行,例如请参见:Insert row into Excel spreadsheet using openpyxl in Python,但您也可以将数据写入CSV文件然后导入进入Excel。

答案 1 :(得分:1)

如果链接在html中...你可以使用美丽的汤。这对我来说过去很有用。

import urllib2
from bs4 import BeautifulSoup

page = 'http://yourUrl.com'
opened = urllib2.urlopen(page)
soup = BeautifulSoup(opened)

for link in soup.find_all('a'):
    print (link.get('href'))

答案 2 :(得分:0)

答案 3 :(得分:0)

你可以用漂亮的汤来解析, [http://www.crummy.com/software/BeautifulSoup/]

有关此处文档的详细信息http://www.crummy.com/software/BeautifulSoup/bs4/doc/

我不会建议抓狂,因为你不需要那些你在问题中描述的工作。

例如此代码将使用urllib2库打开谷歌主页,并以列表的形式查找该输出中的所有链接

import urllib2
from bs4 import BeautifulSoup

data=urllib2.urlopen('http://www.google.com').read()
soup=BeautifulSoup(data)
print soup.find_all('a')

要处理Excel文件,请查看http://www.python-excel.org