如何用PHP在regEx中排除MS Word创建的垃圾字符

时间:2012-01-30 11:42:26

标签: php regex ms-word

我用$ text = fread($ filename,$ filesize);

读取了MS Word文档

然后当我回显$ text时,它有一些chars,浏览器无法正常显示并输出一些破碎的字符。我试图用以下正则表达式清除它们:

preg_replace('/[^\w]/','',$text);但它没有按照我的意愿运作。

有人可以帮忙吗?

1 个答案:

答案 0 :(得分:0)

正如评论中已经提到的,您应该使用一种工具将.doc文件转换为更加可用的内容,如普通/文本。

否则你可以在输出每一行时尝试以下正则表达式,只保留字符串中的数字,字和空白字符:

preg_replace("/^([^\d\w\s])$/i", "", $text);