标签: html tags spacy subscript superscript
我有一些包含<sub>和<sup>标签的HTML文字。我想知道如何将它们转换成纯文本,以便当前的spaCy模型正确处理它们。
<sub>
<sup>
我应该转换为a_b和a^b来保留下标和上标吗?感谢。
a_b
a^b