我有一个包含多篇报纸文章的.txt文件。每篇文章都有一个标题,作者姓名等。我想读取R中的整个.txt文件并删除每一行+接下来的5行以某些单词开头。我认为gsub + reg表达式可能是解决方案,但我不知道如何定义它的方式,以便不仅删除包含这些单词的行,而且还删除接下来的5行。
编辑:
txt。文件由200篇华盛顿邮报文章组成。每篇文章的结尾都是:
lydia.depillis@washpost.com
LOAD-DATE:2013年7月14日
语言:英语
出版物类型:网络出版物
版权所有2013 Washingtonpost.Newsweek Interactive Company,LLC d / b / a Washington 发布数字 保留所有权利
200份文件中的4份
华盛顿邮报博客
在循环中
2013年6月28日星期五美国东部时间下午3:08
每当出现电子邮件地址时,我都要删除所有内容,直到显示日期的行,以便我们顺利过渡到下一篇文章。我想使用情绪分析,因此不需要这些线。