Question

我正在从HTML生成PDF，但不是将其解释为普通文本，而是将我的PDF页面填充了<p>，<li>等html标签。

Answer 1

您需要删除所有代码并转换特殊字符。

PHP示例：

$text = preg_replace($html, '<[^>]*>', '');
$text = html_entity_decode($text);

VB.NET示例：

Dim text As String = Regex.Replace(html, "<[^>]*>", "")
text = System.Web.WebUtility.HtmlDecode(text)

Java示例：

text = html.replaceAll("<[^>]*>", "");

对于html实体解码，你会在这里找到一个很好的答案：Java: How to unescape HTML character entities in Java?。否则，如果您知道所有这些内容（ ，"，...），则可以替换它们。