我想在syntaxnet上解析文本时忽略注释字符。
例如,在下面的情况中,我想忽略<X>
和</X>
注释字符。
<PERSON>Michael Jordan</PERSON> is a professor at <LOC>Berkeley</LOC>.
所以,我希望下一个输出。
_ <PERSON> _ ...
1 Michael _ ...
2 Jordan _ ...
_ </PERSON> _ ...
3 is _ ...
...
SyntaxNet不具备这样的功能吗?
答案 0 :(得分:0)
不,SyntaxNet没有特定的功能来操作xml标签。但是,您可以使用以下内容轻松地在Python中预处理数据:
import xml.etree.ElementTree as ET
tree = ET.fromstring(
"<DOC><PERSON>Michael Jordan</PERSON> is a "
"professor at <LOC>Berkeley</LOC>.</DOC>")
notags = ET.tostring(tree, encoding='utf8', method='text')
print(notags)