我正在尝试将HTML转换为纯文本。我得到了很多&\#8217;
&\#8220;
等等。
我试过了:
html2text
命令行html_entity_decode
+ ENT_QUOTES
| ENT_HTML401
UTF-8
html_entity_decode(htmlentities($str))
strip_tags
trim
它确实对清理其他内容有很大帮助,但那些&\#8217;
“
没有得到修复。我怎样才能正确转换它们?
答案 0 :(得分:1)
您是否尝试过“htmlspecialchars_decode”
<?php
$str = "<p>this -> "</p>\n";
echo htmlspecialchars_decode($str);
// note that here the quotes aren't converted
echo htmlspecialchars_decode($str, ENT_NOQUOTES);
?>
以上示例将输出:
<p>this -> "</p>
<p>this -> "</p>