我必须从网站上获取许多网址,然后我要在excel文件中复制这些网址。 我正在寻找一种自动方式来做到这一点。该网站的结构有一个主页,有大约300个链接,每个链接内有2或3个链接,对我来说很有趣。 有什么建议吗?
答案 0 :(得分:1)
如果您想在Python中开发解决方案,那么我可以推荐Scrapy框架。
就将数据插入Excel工作表而言,有一些方法可以直接进行,例如请参见:Insert row into Excel spreadsheet using openpyxl in Python,但您也可以将数据写入CSV文件然后导入进入Excel。
答案 1 :(得分:1)
如果链接在html中...你可以使用美丽的汤。这对我来说过去很有用。
import urllib2
from bs4 import BeautifulSoup
page = 'http://yourUrl.com'
opened = urllib2.urlopen(page)
soup = BeautifulSoup(opened)
for link in soup.find_all('a'):
print (link.get('href'))
答案 2 :(得分:0)
你试过selenium还是urllib?.urllib比硒快 http://useful-snippets.blogspot.in/2012/02/simple-website-crawler-with-selenium.html
答案 3 :(得分:0)
你可以用漂亮的汤来解析, [http://www.crummy.com/software/BeautifulSoup/]
有关此处文档的详细信息http://www.crummy.com/software/BeautifulSoup/bs4/doc/
我不会建议抓狂,因为你不需要那些你在问题中描述的工作。
例如此代码将使用urllib2库打开谷歌主页,并以列表的形式查找该输出中的所有链接
import urllib2
from bs4 import BeautifulSoup
data=urllib2.urlopen('http://www.google.com').read()
soup=BeautifulSoup(data)
print soup.find_all('a')
要处理Excel文件,请查看http://www.python-excel.org