在php中解析带有编码的docx

时间:2013-10-03 14:24:23

标签: php parsing

好的,所以我有一个充满文本(仅文本)的docx文件,我想以非常具体的方式解析它。请记住,它使用塞尔维亚拉丁语中的特殊字符,例如ŠĐŽĆČ

这是我正在尝试做的事情: 1)从文本中取出每个单词,忽略1个字母单词 2)如果它用特殊字符编码(例如Čovek),则制作它的两个版本,一个是“Čovek”,另一个是“Covek”(所以一个有特殊字符,一个没有) 3)将两者保存在相应列的表格中(由单词的第一个字母确定,因此C表示Covek,Č表示Čovek。仅当它们不存在时,如果它们跳过

就是这样。文件存在,表结构存在,我只是不知道如何解析它们。

谢谢!

0 个答案:

没有答案