应用错误收集

在使用Quanteda进行文本分析之前，我使用了Provalis Wordstat。使用字典方法时，Wordstat允许用户在字典中包括常规术语和邻近规则（例如：“苏丹”不在“ South_”附近；“刚果”不在“ Democratic_Republic_of_the_”之后）。是否可以在Quanteda中应用类似的功能？朋友建议通过正则表达式执行某些排除规则可以起作用，但我不知道如何实现。

尽管我对编写正则表达式不是很熟悉（或任何使之可行的选项），但我的想法却与以下内容类似：

# example for dictionary with names of 2 african countries
africa_dict <- dictionary(list(algeria="algeria",
                             republic_of_the_congo=c("republic_of_the_congo", "congo_(NOT AFTER democratic_republic_of_the_)")))

具有逻辑/上下文规则的quanteda词典（请参阅Wordstat的“邻近规则”）

0 个答案: