:将html保存为文本

时间:2012-01-12 12:59:32

标签: python html javascript

我有一个javascript代码,只显示html页面的源代码

javascript:h=document.getElementsByTagName('html')[0].innerHTML;function%20disp(h){h=h.replace(/</g,%20'\n&lt;');h=h.replace(/>/g,'&gt;');document.getElementsByTagName('body')[0].innerHTML='<pre>&lt;html&gt;'+h.replace(/(\n|\r)+/g,'\n')+'&lt;/html&gt;</pre>';}void(disp(h));

我将代码保存为firefox中的书签。因此,在加载网页后,当我从书签中选择代码时,它会显示源代码。

现在我尝试使用python保存html文件。

from BeautifulSoup import BeautifulSoup
from BeautifulSoup import BeautifulStoneSoup
import BeautifulSoup

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://www.doctorisin.net/")
soup = BeautifulSoup(page)
print soup.prettify()
fp = open('file.txt','wb')
fp.write(soup.prettify())

但它没有javascript代码的所有内容。保存的文件和javascript显示源文件不相同。也许python代码没有从html页面获取所有代码(javascript / css标记代码)。问题是什么?难道我做错了什么?需要帮助

谢谢

EDITED

作为我的问题的一个例子, http://phpjunkyard.com/tutorials/cut-paste-code.php (随机网站)转到此站点,右键单击并选择查看页面源(firefox)复制源并保存在文本文件中。现在保存页面(将页面另存为)。你可以看到两者都不一样。已保存的页面(另存为)还有更多内容。 Python给出了类似源代码的输出(查看页面源代码)。它缺少一些脚本,表格等。

2 个答案:

答案 0 :(得分:4)

如果要保存Web服务器提供的确切HTML,请不要使用BeautifulSoup(这是一个HTML解析器,并且可能会在对其进行精心打印时修改代码);这将是一个更好的解决方案:

import urllib2
file("my_file.txt", "w").write(urllib2.urlopen("http://www.doctorisin.net/").read())

默认情况下,Firefox不仅会保存HTML,还会保存显示页面所需的文件(包括css和脚本)。

答案 1 :(得分:1)

您看到的是静态网页和动态网页之间的区别。

与静态网页不同,动态网页可以在加载时修改底层html。 Javascript可以转储已加载页面的完整html,因为它可以访问浏览器创建的修改后的DOM。

相反,如果从服务器下载相同的网页并直接提供给BeautifulSoup,它只能将其解析为静态html。要获得完整的动态内容,首先需要浏览器(或等效的)处理页面。