我有一个(大)文本正在努力尝试从原来的网络友好格式转换为“略微”更严格的内容(epub - 并且有些读者非常挑剔HTML接受)。
HTML净化器非常适用于一类问题,我将其称为“错误编码”。缺少封闭式括号(技术上合法的HTML)和浏览器自动解决的其他烦恼。
当HTML净化器不工作时,它会遇到编码问题。许多角色都保存在Ӓ格式,(显然?)HTML净化器不关心。也许我只需要更好地配置它。另一个问题是我存在的祸根:卷曲引号,em-dashes等。我已经成功地在一些问题上进行了大规模的搜索和替换,但是我担心的是我可能在某个地方错过了一个角色(因为遇到了带有重音和魔咒的似曾相识的情况而带回家包括严重标记)。
有没有办法让HTML净化器告诉我这些字符存在问题,而不是默默地剥离它们?我正在尝试查看代码,但该软件非常适用于不同的用例场景(“默默地”处理用户输入,而不是程序员在文本主体上进行大规模转换),我只是没有看到我正在寻找的数据。
答案 0 :(得分:0)
我认为这个函数 mysql_real_escape_string($ text)可用于解决您的问题
$ text =“一个长期存在的事实是,在查看其布局时,读者会被页面的可读内容分心。使用Lorem Ipsum的一点是,它具有或多或少的正态分布字母,而不是使用'内容在这里,内容在这里',使其看起来像英文可读。许多桌面出版包和网页编辑现在使用Lorem Ipsum作为他们的默认模型文本,搜索'lorem ipsum'将揭开许多网站仍然处于起步阶段。多年来,各种版本都有所发展,有时是偶然的,有时是故意的(注入幽默等)。“;
$ main = mysql_real_escape_string($ text);