Question

所以，我的URL编码了一个单词doc，试图解析某些字段......这很痛苦。虽然有一些“意想不到的”结果，但除了这一次之外，我的一切都很好。

以下是Word输出99.8％结果的示例：

13％+ + FORMTEXT％01％14wes％15

通常情况下，我设置的正则表达式完全按照我的需要抓取所有字段，如上例所示。但下面的例子很奇怪。试图从底部的例子中解析出“wes”。

％13 + FORMTEXT +％01％15％86％15％9A％9C％9E％A0％F2％F4％0A％1A％1C％1E + 468％3A％3C％3E％40TVXZ％5C％15％ 60bvxz％FC％F0 E0％％14％D4％C1％06％14wes％15

请注意，这是一个很大的字符串，所以它会以这种方式继续：

%13+FORMTEXT+%01%15%86%15%9A%9C%9E%A0%F2%F4%0A%1A%1C%1E+468%3A%3C%3E%40TVXZ%5C%15%60bvxz%FC%F0%E0%14%D4%C1%06%14wes%15%13+FORMTEXT+%01%14wess%15

请注意％01和％14之间的巨大差距，然后是％14和％15之间的文本。通常％01％14是并排的，在这种情况下，它们之间存在无意义...很多，这样就缩短了。

干杯，韦斯

Answer 1

使用不同的路径，将doc转换为docx / ooxml并在XML上使用正则表达式。