将网页转储(附加)到文件

时间:2018-03-13 11:49:16

标签: python logging scripting wget dump

我需要每1分钟将网页的内容(仅限文本)转储到文本文件中(将其全部附加到一个文本文件中) 该网页是一个Web日志,可以自动更新。 我可以使用一个简短的python脚本来实现这种简单的复制/粘贴自动化吗?或者你知道任何现成的程序也可以这样做吗?

我检查了这个答案: Python: saving large web page to file 而这:Dumping a dynamic web page to file? 但我是python的新手,所以我不能在提供的信息上构建我的脚本

似乎这可能是一个解决方案:https://www.seleniumhq.org/projects/webdriver/

但是你能给我一个小小的工作实例

1 个答案:

答案 0 :(得分:0)

你绝对可以使用Python来完成这项任务,但是如果没有你想要保存的网站的更多细节,就不可能说它有多难。

一个非常简单的例子可能看起来像这样(使用流行的请求库)。

try {
    risky code block
}
catch (ExceptionClassName exceptionObjectName) {
    code to resolve problem
}

当然,Python对于这样一个简单的例子来说太过分了。你可以用curl来实现这个目的:

import requests

response = requests.get('http://example.com')

with open('output.txt', 'w+') as handle:
    handle.write(response.text)

然后您需要做的就是设置某种任务运行器(可能是cron)来每分钟运行一次或者像您一样经常运行。

如果网站上有网页渲染所需的JavaScript,那么您需要使用更高级的解决方案,但就像我说的那样,您还没有提供足够的详细信息来获得更详细的答案。