我正在从HTML生成PDF,但不是将其解释为普通文本,而是将我的PDF页面填充了<p>
,<li>
等html标签。
答案 0 :(得分:0)
您需要删除所有代码并转换特殊字符。
PHP示例:
$text = preg_replace($html, '<[^>]*>', '');
$text = html_entity_decode($text);
VB.NET示例:
Dim text As String = Regex.Replace(html, "<[^>]*>", "")
text = System.Web.WebUtility.HtmlDecode(text)
Java示例:
text = html.replaceAll("<[^>]*>", "");
对于html实体解码,你会在这里找到一个很好的答案:Java: How to unescape HTML character entities in Java?。否则,如果您知道所有这些内容(
,"
,...),则可以替换它们。