我已经尽力而为,没有找到答案。
我正在尝试保存如下页面: http://www.folkbibeln.it/?book=1joh&chapter=1&verse=1
分隔html页面并保留格式。我可以浏览每个页面,进行复制,粘贴到文字处理软件中并另存为html,但是这需要花费数小时的时间。我在想可能会有一些代码可以使它自动化?我只是想不通,因为它的行为不像一个纯HTML网站。
Python是我通常使用的语言。
答案 0 :(得分:0)
所有文本都在JS文件中。您加载您给我们的网址。单击ctrl-s,然后选择“网页完整”。然后,所有文本都将保存在文件夹1 Joh 1 – Svenska Folkbibeln_files
中,除非在js文件中呈现JS,否则您将无法另存为格式化文本。
答案 1 :(得分:0)
作为一种蛮力手段,您可以使用Headless Browser为您加载每个页面并将其保存到文件中。
但是正如mplungjan已经提到的,所有文本都在js文件中。
您可以将这些文件保存到磁盘上,然后采用构建html页面的脚本,并编写一个小的nodejs脚本为您构建所有html文件。 (将原始脚本作为模板。)
但是nodejs不是python
根据您要对文本进行的操作,将这些js文件转换为JSON并进行解析或直接转换为python数据结构并不难,您可以将其导入并在脚本的某些脚本中进行处理选择。
编辑:
第二眼,我刚刚看到了这个:http://www.folkbibeln.it/chapters/1joh1.html
似乎有些文件需要纯HTML格式,只需下载即可。