如何忽略SyntaxNet上的注释字符?

时间:2016-08-30 15:23:20

标签: syntaxnet

我想在syntaxnet上解析文本时忽略注释字符。

例如,在下面的情况中,我想忽略<X></X>注释字符。

<PERSON>Michael Jordan</PERSON> is a professor at <LOC>Berkeley</LOC>.

所以,我希望下一个输出。

_    <PERSON>    _     ...
1    Michael     _     ...
2    Jordan      _     ...
_    </PERSON>   _     ...
3    is          _     ...
...

SyntaxNet不具备这样的功能吗?

1 个答案:

答案 0 :(得分:0)

不,SyntaxNet没有特定的功能来操作xml标签。但是,您可以使用以下内容轻松地在Python中预处理数据:

import xml.etree.ElementTree as ET
tree = ET.fromstring(
    "<DOC><PERSON>Michael Jordan</PERSON> is a "
    "professor at <LOC>Berkeley</LOC>.</DOC>")
notags = ET.tostring(tree, encoding='utf8', method='text')
print(notags)

另见Python strip XML tags from document