目标是对科学文本进行语法分析。首先,我需要对这些文本的句子进行词性标注。文本来自arxiv.org。所以他们最初是在LaTeX。从LaTeX文档中提取文本时,可以将数学表达式转换为MathML(或者可能是其他格式,但我更喜欢MathML,因为这项工作正在创建一个特定的Web应用程序,而MathML是一个方便的工具)。 / p>
我唯一的想法是用一些自然语言短语替换数学表达式,然后使用一些实现的算法进行pos标记。那么问题是如何实现这种替换,或者一般来说,如何实现带有数学的文本的pos标记呢?
答案 0 :(得分:0)
用单替换所有数学公式,这个独特的单词似乎是要走的路。
答案 1 :(得分:0)
我在斯坦福标记器之上实现了一个公式替换算法,它的工作非常好。正如阿贝卡德所写的那样,要走的是用一个独特但新的词来代替每个公式,我使用了一个单词和一个哈希'formula-duwkziah'的组合。