好的,所以我有一个充满文本(仅文本)的docx文件,我想以非常具体的方式解析它。请记住,它使用塞尔维亚拉丁语中的特殊字符,例如ŠĐŽĆČ
这是我正在尝试做的事情: 1)从文本中取出每个单词,忽略1个字母单词 2)如果它用特殊字符编码(例如Čovek),则制作它的两个版本,一个是“Čovek”,另一个是“Covek”(所以一个有特殊字符,一个没有) 3)将两者保存在相应列的表格中(由单词的第一个字母确定,因此C表示Covek,Č表示Čovek。仅当它们不存在时,如果它们跳过
就是这样。文件存在,表结构存在,我只是不知道如何解析它们。
谢谢!