我正在尝试解析word文档并提取几段。有一个文档,我不知道文档的创建者是如何做什么的,它基本上将一个单词解析为两个单词。例如,单词"标准",它正在处理" st"作为一个词," andards"换句话说。
您知道这是否与语言,编码或与文档相关的任何其他内容有关吗?
以下是outerXml的部分如何:
-<w:r pt14:LanguageType="western" pt14:FontName="Calibri" pt14:StyleName="DefaultParagraphFont">
-<w:rPr>
<w:rFonts w:cstheme="minorBidi" w:hAnsiTheme="minorHAnsi" w:asciiTheme="minorHAnsi" w:cs="" w:eastAsia="Calibri" w:hAnsi="Calibri" w:ascii="Calibri" w:eastAsiaTheme="minorHAnsi"/>
<w:b/>
<w:spacing w:val="-1"/>
<w:sz w:val="22"/>
<w:szCs w:val="22"/>
<w:lang w:val="en-US" w:eastAsia="en-US" w:bidi="ar-SA"/>
</w:rPr>
<w:t>St</w:t>
</w:r>
-<w:r pt14:LanguageType="western" pt14:FontName="Calibri" pt14:StyleName="DefaultParagraphFont">
-<w:rPr>
<w:rFonts w:cstheme="minorBidi" w:hAnsiTheme="minorHAnsi" w:asciiTheme="minorHAnsi" w:cs="" w:eastAsia="Calibri" w:hAnsi="Calibri" w:ascii="Calibri" w:eastAsiaTheme="minorHAnsi"/>
<w:b/>
<w:sz w:val="22"/>
<w:szCs w:val="22"/>
<w:lang w:val="en-US" w:eastAsia="en-US" w:bidi="ar-SA"/>
</w:rPr>
<w:t>andards</w:t>
</w:r>