具有逻辑/上下文规则的quanteda词典(请参阅Wordstat的“邻近规则”)

时间:2019-06-11 21:58:54

标签: r quanteda

在使用Quanteda进行文本分析之前,我使用了Provalis Wordstat。使用字典方法时,Wordstat允许用户在字典中包括常规术语和邻近规则(例如:“苏丹”不在“ South_”附近;“刚果”不在“ Democratic_Republic_of_the_”之后)。是否可以在Quanteda中应用类似的功能?朋友建议通过正则表达式执行某些排除规则可以起作用,但我不知道如何实现。

尽管我对编写正则表达式不是很熟悉(或任何使之可行的选项),但我的想法却与以下内容类似:

# example for dictionary with names of 2 african countries
africa_dict <- dictionary(list(algeria="algeria",
                             republic_of_the_congo=c("republic_of_the_congo", "congo_(NOT AFTER democratic_republic_of_the_)")))

0 个答案:

没有答案