我有一个包含4,500个长文本的数据集,我使用R包进行分析。我只想分析包含特定单词的句子,我该怎么办呢?并且我可以使用R来创建所有句子的第二组(它将独立于原始集合吗?) 感谢
答案 0 :(得分:0)
数据:
lorem <- "\nLorem ipsum dolor sit amet, consectetur adipisicing elit,\nsed do eiusmod tempor incididunt ut labore et dolore magna aliqua.\nUt enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi\nut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit\nin voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur\nsint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit\nanim id est laborum.\n\nSed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque\nlaudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi\narchitecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas\nsit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione\nvoluptatem sequi nesciunt. Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet,\nconsectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et\ndolore magnam aliquam quaerat voluptatem. Ut enim ad minima veniam, quis nostrum\nexercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi\nconsequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam\nnihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?\n"
将其写为单个文本文件&#34; lorem_ipsum.txt&#34;
cat(lorem, file="lorem_ipsum.txt")
lorem <- readLines("lorem_ipsum.txt")
仅返回包含单词&#34; lit&#34;
的行output<-grep("lit", lorem, value=T)
output
[1] "Lorem ipsum dolor sit amet, consectetur adipisicing elit,"
[2] "in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur"
[3] "sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit"
[4] "consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et"
[5] "consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam"
删除&#34; lorem_ipsum.txt&#34;文件
unlink("lorem_ipsum.txt")