我需要翻译一些HTML页面内容。我有很多HTML文档作为文件列表和一个包含如下翻译的地图:
List<File> files
Map<String, String> translations
只需翻译特定标签(p,h1..h6,li)中的字符串。我希望最终使用与开头相同的文件,但是使用替换的字符串。
两种不起作用的解决方案:
任何解决方案?
答案 0 :(得分:1)
你几乎必须使用一个正确的html解析器(它修复了dom结构),因为否则就无法分辨元素的起始位置和结束位置。有各种特殊情况和不同类型的破坏html,如果你想处理它们,你基本上是实现一个完整的HTML解析器。
我能想到的唯一其他方式(以及经常使用的方法)是在原始文件中使用占位符,例如<h1>${title}</h1> <p>${introduction}</p>
等,并直接查找和替换它们,但我想这需要一个如果您还没有以这种形式使用文件,那么需要做很多工作。