是否可以使用`kwic`函数找到彼此靠近的单词?

时间:2018-04-18 19:26:01

标签: r text-mining quanteda

我找到了这个参考:https://www.safaribooksonline.com/library/view/regular-expressions-cookbook/9781449327453/ch05s07.html 是否可以将其与kwic包中的quanteda函数一起使用,以便能够在语料库中查找包含非“卡住”但彼此接近的单词的文档,可能还有一些其他单词之间?

例如,如果我在函数中给出两个单词,我想在语料库中找到这两个单词出现的文档,但可能在它们之间有一些单词。例如,你告诉我“引擎”和“电气”,我也会得到“电子同步引擎”出现的报告,但不会出现“引擎”和“电子”出现在完全不同的环境中的报告。

1 个答案:

答案 0 :(得分:0)

quanteda 没有NEAR运算符,但您可以使用window tokens_select()参数执行相同的操作。在这个例子中,我正在搜索“america *”uisng kwic()中的五个单词:

require(quanteda)
toks <- tokens(data_corpus_inaugural)
toks_america <- tokens_select(toks, "america*", window = 5)

kwic(toks_america, "econom*")
# [2013-Obama, 45] has been tested by crises | economic | recovery has begun. America's

kwic(toks_america, "power")
# [1997-Clinton, 85] it can give Americans the | power | to make a government is