有没有办法从PHP中的microsoft onenote文档中提取文本?我尝试使用正则表达式匹配超过3个字符的单词,但我仍然得到垃圾字符串(即yaKmUrD)。有没有办法只提取有意义的文本?
谢谢, 克里斯
编辑: 我找到了一种方法来提取大部分文本。 (我只是使用正则表达式删除所有非ascii字符并过滤掉少于4个字符的数字或单词。这不是完美的,但它适用于创建关键字字符串。)现在我有一个带有文件名列和文本列的表包含文档的文本。在存储到文本列之前,数据已过滤重复项,“关键字”已用逗号分隔。我现在正在寻找一种简单的方法来比较每个文件的这些文本字段并输出%匹配。是否有一个函数/方法在mysql中执行此操作,或者我是否必须通过脚本以编程方式执行此操作?谢谢你的帮助。