当从某些单词开始时,R删除文本文件的整行

时间:2018-02-27 02:28:32

标签: r text-mining gsub

我有一个包含多篇报纸文章的.txt文件。每篇文章都有一个标题,作者姓名等。我想读取R中的整个.txt文件并删除每一行+接下来的5行以某些单词开头。我认为gsub + reg表达式可能是解决方案,但我不知道如何定义它的方式,以便不仅删除包含这些单词的行,而且还删除接下来的5行。

编辑:

txt。文件由200篇华盛顿邮报文章组成。每篇文章的结尾都是:

lydia.depillis@washpost.com

LOAD-DATE:2013年7月14日

语言:英语

出版物类型:网络出版物

版权所有2013 Washingtonpost.Newsweek Interactive Company,LLC d / b / a Washington                                   发布数字                               保留所有权利

200份文件中的4份

华盛顿邮报博客

在循环中

2013年6月28日星期五美国东部时间下午3:08

每当出现电子邮件地址时,我都要删除所有内容,直到显示日期的行,以便我们顺利过渡到下一篇文章。我想使用情绪分析,因此不需要这些线。

0 个答案:

没有答案