R:Quanteda从语料库中删除标签

时间:2019-03-29 23:28:53

标签: r regex tags corpus quanteda

我正在使用Quanteda软件包处理数字文本。我的文本中包含标签,其中一些具有唯一值,例如URL。我不仅要删除标签,还要删除标签内的所有内容。

示例:

<oa>
</oa>
<URL: http://in.answers.yahoo.com/question/index;_ylt=Ap2wvXm2aeRQKHO.HeDgTfneQHRG;_ylv=3?qid=1006042400700>
<q>
<ad>
</ad>

我不确定在使用quanteda软件包时如何删除它们。在我看来,dfm函数将是使用它的地方,我认为stopwords不会因为唯一的URL而起作用。我可以将以下gsub与正则表达式一起使用,以成功定位要删除的标签:

x <- gsub("<.*?>", "", y)

我已经遍历了gfm文档,并尝试了一些关于remove和value类型参数的事情,但是也许我不太了解该文档。

也如this question中的答案所示,我尝试了dfm_select函数,但也没有骰子。

这是我的代码:

library(readtext)
library(quanteda)

#create directory
data_dir <- list.files(pattern="*.txt", recursive = TRUE, full.names = TRUE)

#create corpus    
micusp_corpus <- corpus(readtext(data_dir))

#add field 'region'
docvars(micusp_corpus, "Region") <- gsub("(\\w{6})\\..*?$", "", rownames(micusp_corpus$documents))

#create document feature matrix
micusp_dfm <- dfm(micusp_corpus, groups = "Region", remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE)
 #try to remove tags       
micusp_dfm <- dfm_select(micusp_dfm, "<.*?>", selection = "remove", valuetype = "regex")

#show top tokens (note the appearence of the tag content "oa")
textstat_frequency(micusp_dfm, n=10)

1 个答案:

答案 0 :(得分:1)

虽然您的问题没有提供可重复的示例,但我想我可以提供帮助。您想在进入dfm构建阶段之前清理进入语料库的文本。将// This is actually the most efficent solution // because we don't have to default-construct any of the cards using std::begin; using std::end; // Get the first 26 elements of mainDeck std::vector<Card> playerDeck(begin(mainDeck), begin(mainDeck) + 26); // Get the second 26 elements of mainDeck std::vector<Card> computerDeck(begin(mainDeck) + 26, end(mainDeck)); 行替换为此:

#create corpus