网页是否已被阅读?如何将其保存到excel文件?

时间:2013-06-07 10:26:12

标签: python excel beautifulsoup

我想使用Python将网页的文本内容保存到Excel文件中。作为一个新手,下面是我可以解决的问题,我不确定它是否正确。

from bs4 import BeautifulSoup
from urllib2 import urlopen

html = urlopen("http://www.chicagoreader.com").read()
soup = BeautifulSoup(html, "lxml")

看起来不错吗?将文本内容自动保存到Excel文件的下一步是什么?我已经安装了xlutils,但不知道如何使用它。

有人能在这帮助我吗?感谢。

1 个答案:

答案 0 :(得分:2)

为了使用python写入excel文件,你有几个包可供选择:

所以,这取决于它应该是什么样的excel文件,xlsxlsx,你需要格式化,速度是否重要等等。

以下是如何使用xlwt将网页标题写入(0,0)单元格的示例:

import xlwt  
from bs4 import BeautifulSoup
from urllib2 import urlopen

html = urlopen("http://www.chicagoreader.com").read()
soup = BeautifulSoup(html, "lxml")

workbook = xlwt.Workbook()
sheet = workbook.add_sheet('test')

sheet.write(0, 0, soup.title.text)

workbook.save('output.xls')

希望有所帮助。