我用$ text = fread($ filename,$ filesize);
读取了MS Word文档然后当我回显$ text时,它有一些chars,浏览器无法正常显示并输出一些破碎的字符。我试图用以下正则表达式清除它们:
preg_replace('/[^\w]/','',$text);
但它没有按照我的意愿运作。
有人可以帮忙吗?
答案 0 :(得分:0)
正如评论中已经提到的,您应该使用一种工具将.doc文件转换为更加可用的内容,如普通/文本。
否则你可以在输出每一行时尝试以下正则表达式,只保留字符串中的数字,字和空白字符:
preg_replace("/^([^\d\w\s])$/i", "", $text);