所以,我的URL编码了一个单词doc,试图解析某些字段......这很痛苦。虽然有一些“意想不到的”结果,但除了这一次之外,我的一切都很好。
以下是Word输出99.8%结果的示例:
13%+ + FORMTEXT%01%14wes%15
通常情况下,我设置的正则表达式完全按照我的需要抓取所有字段,如上例所示。但下面的例子很奇怪。试图从底部的例子中解析出“wes”。
%13 + FORMTEXT +%01%15%86%15%9A%9C%9E%A0%F2%F4%0A%1A%1C%1E + 468%3A%3C%3E%40TVXZ%5C%15% 60bvxz%FC%F0 E0%%14%D4%C1%06%14wes%15
请注意,这是一个很大的字符串,所以它会以这种方式继续:
%13+FORMTEXT+%01%15%86%15%9A%9C%9E%A0%F2%F4%0A%1A%1C%1E+468%3A%3C%3E%40TVXZ%5C%15%60bvxz%FC%F0%E0%14%D4%C1%06%14wes%15%13+FORMTEXT+%01%14wess%15
请注意%01和%14之间的巨大差距,然后是%14和%15之间的文本。通常%01%14是并排的,在这种情况下,它们之间存在无意义...很多,这样就缩短了。
干杯, 韦斯
答案 0 :(得分:0)
使用不同的路径,将doc转换为docx / ooxml并在XML上使用正则表达式。