如何在单词文档

时间:2015-10-01 12:01:41

标签: python regex ms-word

我正在开发一个网络应用程序,并且不希望用户输入一些造成问题的无效字符。

导致问题的一个这样的角色是来自MS word的菱形子​​弹,但要删除该角色我需要知道角色的Unicode,以便我可以将它包含在Python的正则表达式中字符as suggested here

textString = some value which need to be checked for invalid characters
pattern = some regular expression for invalid characters
if pattern.search(textString):
    print 'Invalid characters found'
else:
    print 'Valid string'

我找到了类似的解决方案here,但这不适用于子弹。

伙计们,请帮我解决这个问题。

1 个答案:

答案 0 :(得分:1)

使用无效字符创建Word文档。 (不要使用子弹制造商图标,使用Insert-> symbol->符号浏览器并从地图中选择它。)

解压缩。

xmllint --format word/document.xml | more

<w:r w:rsidR="00A50B17" w:rsidRPr="00E62AD7">
    <w:rPr>
      <w:rFonts w:ascii="Wingdings" w:hAnsi="Wingdings"/>
      <w:color w:val="000000"/>
    </w:rPr>
    <w:t><U+F075></w:t>
  </w:r>

并在能够读取unicode字符的编辑器中打开word / document.xml文件。在这里,我使用 xmllint 更多作为一个快速而肮脏的示例。我不知道你在说什么子弹,但我在这里试过的那个是U + F075:

{{1}}

然后对于所有unicode字符,将它们放在脚本中。