应用错误收集

时间：2019-03-06 09:08:13

标签： javascript python html format

我已经尽力而为，没有找到答案。

分隔html页面并保留格式。我可以浏览每个页面，进行复制，粘贴到文字处理软件中并另存为html，但是这需要花费数小时的时间。我在想可能会有一些代码可以使它自动化？我只是想不通，因为它的行为不像一个纯HTML网站。

Python是我通常使用的语言。

答案 0 :(得分：0)

所有文本都在JS文件中。您加载您给我们的网址。单击ctrl-s，然后选择“网页完整”。然后，所有文本都将保存在文件夹1 Joh 1 – Svenska Folkbibeln_files中，除非在js文件中呈现JS，否则您将无法另存为格式化文本。

答案 1 :(得分：0)

作为一种蛮力手段，您可以使用Headless Browser为您加载每个页面并将其保存到文件中。

但是正如mplungjan已经提到的，所有文本都在js文件中。

您可以将这些文件保存到磁盘上，然后采用构建html页面的脚本，并编写一个小的nodejs脚本为您构建所有html文件。（将原始脚本作为模板。）
但是nodejs不是python

根据您要对文本进行的操作，将这些js文件转换为JSON并进行解析或直接转换为python数据结构并不难，您可以将其导入并在脚本的某些脚本中进行处理选择。

编辑：

第二眼，我刚刚看到了这个：http://www.folkbibeln.it/chapters/1joh1.html

似乎有些文件需要纯HTML格式，只需下载即可。