Python中的`document.lastModified`

时间:2015-10-10 21:58:04

标签: python html beautifulsoup

在python中,通过使用HTML解析器,是否可以获取网页的document.lastModified属性。我正在尝试检索所有者上次修改网页/文档的日期。

2 个答案:

答案 0 :(得分:1)

您还可以在HTML代码中寻找一个last-modified日期,尤其是在meta标签中。 htmldate模块就是这样做的。

这是它的工作方式:

1。安装软件包:

pip/pip3/pipenv (your choice) -U htmldate

2。检索网页,进行解析并输出日期:

from htmldate import find_date

find_date('http://blog.python.org/2016/12/python-360-is-now-available.html')

(免责声明:我是作者)

答案 1 :(得分:0)

一个有点相关的问题“I am downloading a file using Python urllib2. How do I check how large the file size is?”表明以下(未经测试的)代码应该有效:

import urllib2          
req = urllib2.urlopen("http://example.com/file.zip")
total_size = int(req.info().getheader('last-modified'))

如果没有设置,您可能希望将默认值添加为getheader()的第二个参数。