在使用Quanteda进行文本分析之前,我使用了Provalis Wordstat。使用字典方法时,Wordstat允许用户在字典中包括常规术语和邻近规则(例如:“苏丹”不在“ South_”附近;“刚果”不在“ Democratic_Republic_of_the_”之后)。是否可以在Quanteda中应用类似的功能?朋友建议通过正则表达式执行某些排除规则可以起作用,但我不知道如何实现。
尽管我对编写正则表达式不是很熟悉(或任何使之可行的选项),但我的想法却与以下内容类似:
# example for dictionary with names of 2 african countries
africa_dict <- dictionary(list(algeria="algeria",
republic_of_the_congo=c("republic_of_the_congo", "congo_(NOT AFTER democratic_republic_of_the_)")))