如何检测语料库中的语法元素

时间:2019-02-11 18:39:02

标签: r grammar corpus

我正在RStudio中使用大型语料库,我们的下一阶段研究包括检测某些语法元素及其在文本中的出现频率。我们想检测事物发生的频率,例如使用抽象名词或定语形式,包括辅助动词“必须”,“必须”,“可能”,“可以”,“应该”,“应该”,我想捕捉其可能的共轭,即,不仅“她必须”而且“她必须”;不仅“他可以”而且“他可以”。我想可以使用一些简单的RegEx来完成,例如

She ha(ve|d) to

He c(an|ould)

...对吗?问题是1)我不确定是否可以做到这一点(我想可以做到)和2)我应该使用哪个库来做到这一点。

我以为我可以做一个字典并将其运行到整个语料库,但是1)和2)仍然在这里。

0 个答案:

没有答案