我找到了这个参考:https://www.safaribooksonline.com/library/view/regular-expressions-cookbook/9781449327453/ch05s07.html
是否可以将其与kwic
包中的quanteda
函数一起使用,以便能够在语料库中查找包含非“卡住”但彼此接近的单词的文档,可能还有一些其他单词之间?
例如,如果我在函数中给出两个单词,我想在语料库中找到这两个单词出现的文档,但可能在它们之间有一些单词。例如,你告诉我“引擎”和“电气”,我也会得到“电子同步引擎”出现的报告,但不会出现“引擎”和“电子”出现在完全不同的环境中的报告。
答案 0 :(得分:0)
quanteda 没有NEAR运算符,但您可以使用window
tokens_select()
参数执行相同的操作。在这个例子中,我正在搜索“america *”uisng kwic()
中的五个单词:
require(quanteda)
toks <- tokens(data_corpus_inaugural)
toks_america <- tokens_select(toks, "america*", window = 5)
kwic(toks_america, "econom*")
# [2013-Obama, 45] has been tested by crises | economic | recovery has begun. America's
kwic(toks_america, "power")
# [1997-Clinton, 85] it can give Americans the | power | to make a government is