Question

我正在将静态HTML移动到WordPress上。

我试图找到一种方法，可以从文件中提取特定的HTML内容（标题标签，描述标签，<h1>标签等）。我有大约120个本地文件，手工完成这将是一个漫长的过程。

但是，如果我可以将此数据转换为CSV，我可以快速移动此网站。

有没有人对此类流程有任何建议或经验？任何帮助将不胜感激。

Answer 1

问题是关于从给定的HTML文件中提取某些HTML元素。有多种方法可以做到这一点。让我在下面指出其中的一些。

1）使用带有库的脚本来执行此操作。对于Java，请使用JSOUP。

String br = "<html><source>foo bar bar</source></html>";
Document doc = Jsoup.parse(br, "", Parser.xmlParser());

for (Element sentence : doc.getElementsByTag("source"))
    System.out.println(sentence.text());
}

这将为您提供带有HTML标签source的元素列表。您可以对其他语言（例如python（使用BeautifulSoup和NodeJS）执行相同的操作。

2）您可以编写脚本以将HTML文件作为文本文件读取并进行文本搜索。

将所有HTML文件移动到一个文件夹中，并编写一个小程序以加载每个文件并搜索特定标签。稍后将其保存为CSV或任何首选输出。

3）您可以使用grep进行同样的操作。

简单地进行搜索并将结果直接加载到CSV文件中。

还有多种其他方式可以做到这一点。由于您提到手动工作量较高，因此请尝试编写一个小的脚本来完成任务。使用第一种方法，因为它更快，更容易。

从本地文件中提取特定的HTML内容

1 个答案: