在python中,通过使用HTML解析器,是否可以获取网页的document.lastModified
属性。我正在尝试检索所有者上次修改网页/文档的日期。
答案 0 :(得分:1)
您还可以在HTML代码中寻找一个last-modified
日期,尤其是在meta
标签中。 htmldate模块就是这样做的。
这是它的工作方式:
1。安装软件包:
pip/pip3/pipenv (your choice) -U htmldate
2。检索网页,进行解析并输出日期:
from htmldate import find_date
find_date('http://blog.python.org/2016/12/python-360-is-now-available.html')
(免责声明:我是作者)
答案 1 :(得分:0)
一个有点相关的问题“I am downloading a file using Python urllib2. How do I check how large the file size is?”表明以下(未经测试的)代码应该有效:
import urllib2
req = urllib2.urlopen("http://example.com/file.zip")
total_size = int(req.info().getheader('last-modified'))
如果没有设置,您可能希望将默认值添加为getheader()
的第二个参数。