从本地文件中提取特定的HTML内容

时间:2016-10-13 17:47:19

标签: javascript java python html scripting

我正在将静态HTML移动到WordPress上。

我试图找到一种方法,可以从文件中提取特定的HTML内容(标题标签,描述标签,<h1>标签等)。我有大约120个本地文件,手工完成这将是一个漫长的过程。

但是,如果我可以将此数据转换为CSV,我可以快速移动此网站。

有没有人对此类流程有任何建议或经验?任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

问题是关于从给定的HTML文件中提取某些HTML元素。有多种方法可以做到这一点。让我在下面指出其中的一些。

1)使用带有库的脚本来执行此操作。对于Java,请使用JSOUP。

String br = "<html><source>foo bar bar</source></html>";
Document doc = Jsoup.parse(br, "", Parser.xmlParser());

for (Element sentence : doc.getElementsByTag("source"))
    System.out.println(sentence.text());
}

这将为您提供带有HTML标签source的元素列表。您可以对其他语言(例如python(使用BeautifulSoup和NodeJS)执行相同的操作。

2)您可以编写脚本以将HTML文件作为文本文件读取并进行文本搜索。

将所有HTML文件移动到一个文件夹中,并编写一个小程序以加载每个文件并搜索特定标签。稍后将其保存为CSV或任何首选输出。

3)您可以使用grep进行同样的操作。

简单地进行搜索并将结果直接加载到CSV文件中。

还有多种其他方式可以做到这一点。由于您提到手动工作量较高,因此请尝试编写一个小的脚本来完成任务。使用第一种方法,因为它更快,更容易。