从Word文档中清除HTML

时间:2012-12-10 19:52:33

标签: php html mysql doc

好的,所以我的公司有一个客户端,它有一个发布内容的界面 - 标准的MySQL数据库,基于PHP的等等。

无论如何,他们一直有一个实习生或某人,直接从MS Word文档向这个界面发布内容 - 界面编码很差,并按原样输入,没有格式化。

我的公司现在已经签约以修复这个特殊问题,因为它不断破坏他们的网站,我的公司一再不得不手动进入数据库,并删除有问题的值。

是否有一种快速简便的方法可以做到这一点,或者我是否只需对每个犯罪角色进行替换操作?

我认为htmlentities()可能是部分解决方案 - 但据我所知,这不会删除所有内容。

这个问题的解决方案是什么?有没有什么可以让这更容易?

我们也在考虑编写一个内容验证器,可能只是服务器端(尽管可能是客户端,如果我的周足够慢/我很快就完成剩下的工作)。

1 个答案:

答案 0 :(得分:1)

这取决于您支持的客户(或潜在客户)数量以及您需要投入多少时间。选项

  • 编写您自己的功能以去除元数据

  • 教你的客户自己将其删除,例如首先粘贴在记事本中,
    或者提供知识库文章来解释如何在软件中执行此操作。也许他们可以点击“帮助”部分或图标。 ?HTTTP://support.microsoft.com/default.aspx SCID =个kb; EN-US; 223396

  • 使用WYSIWYG编辑器,如TinyMCE,它具有内置功能,可将其删除

但正如我在评论中所说的那样,除非您使用自己的功能,否则请准备让客户继续直接粘贴,并想知道为什么会出现问题。