如何对含有数学表达式的文本进行词性标注?

时间:2013-03-28 16:40:35

标签: latex nlp mathml mathematical-expressions pos-tagger

目标是对科学文本进行语法分析。首先,我需要对这些文本的句子进行词性标注。文本来自arxiv.org。所以他们最初是在LaTeX。从LaTeX文档中提取文本时,可以将数学表达式转换为MathML(或者可能是其他格式,但我更喜欢MathML,因为这项工作正在创建一个特定的Web应用程序,而MathML是一个方便的工具)。 / p>

我唯一的想法是用一些自然语言短语替换数学表达式,然后使用一些实现的算法进行pos标记。那么问题是如何实现这种替换,或者一般来说,如何实现带有数学的文本的pos标记呢?

2 个答案:

答案 0 :(得分:0)

替换所有数学公式,这个独特的单词似乎是要走的路。

答案 1 :(得分:0)

我在斯坦福标记器之上实现了一个公式替换算法,它的工作非常好。正如阿贝卡德所写的那样,要走的是用一个独特但新的词来代替每个公式,我使用了一个单词和一个哈希'formula-duwkziah'的组合。