Question

我必须从网站上获取许多网址，然后我要在excel文件中复制这些网址。我正在寻找一种自动方式来做到这一点。该网站的结构有一个主页，有大约300个链接，每个链接内有2或3个链接，对我来说很有趣。有什么建议吗？

Answer 1

如果您想在Python中开发解决方案，那么我可以推荐Scrapy框架。

就将数据插入Excel工作表而言，有一些方法可以直接进行，例如请参见：Insert row into Excel spreadsheet using openpyxl in Python，但您也可以将数据写入CSV文件然后导入进入Excel。

Answer 2

如果链接在html中...你可以使用美丽的汤。这对我来说过去很有用。

import urllib2
from bs4 import BeautifulSoup

page = 'http://yourUrl.com'
opened = urllib2.urlopen(page)
soup = BeautifulSoup(opened)

for link in soup.find_all('a'):
    print (link.get('href'))

Answer 3

你试过selenium还是urllib？.urllib比硒快 http://useful-snippets.blogspot.in/2012/02/simple-website-crawler-with-selenium.html

Answer 4

你可以用漂亮的汤来解析， [http://www.crummy.com/software/BeautifulSoup/]

有关此处文档的详细信息http://www.crummy.com/software/BeautifulSoup/bs4/doc/

我不会建议抓狂，因为你不需要那些你在问题中描述的工作。

例如此代码将使用urllib2库打开谷歌主页，并以列表的形式查找该输出中的所有链接

import urllib2
from bs4 import BeautifulSoup

data=urllib2.urlopen('http://www.google.com').read()
soup=BeautifulSoup(data)
print soup.find_all('a')

要处理Excel文件，请查看http://www.python-excel.org

如何使用爬虫或刮刀获取网站的所有网址？

4 个答案: