Question

我想在syntaxnet上解析文本时忽略注释字符。

例如，在下面的情况中，我想忽略<X>和</X>注释字符。

<PERSON>Michael Jordan</PERSON> is a professor at <LOC>Berkeley</LOC>.

所以，我希望下一个输出。

_    <PERSON>    _     ...
1    Michael     _     ...
2    Jordan      _     ...
_    </PERSON>   _     ...
3    is          _     ...
...

SyntaxNet不具备这样的功能吗？

Answer 1

不，SyntaxNet没有特定的功能来操作xml标签。但是，您可以使用以下内容轻松地在Python中预处理数据：

import xml.etree.ElementTree as ET
tree = ET.fromstring(
    "<DOC><PERSON>Michael Jordan</PERSON> is a "
    "professor at <LOC>Berkeley</LOC>.</DOC>")
notags = ET.tostring(tree, encoding='utf8', method='text')
print(notags)

另见Python strip XML tags from document。

如何忽略SyntaxNet上的注释字符？

1 个答案: