清理R中的新行

时间:2018-03-22 00:49:25

标签: r string dataframe

我目前在R中有一个数据框被清理,以便获取某些URL的信息部分。当我请求打印整个数据帧时,它拒绝打印第一个元素。数据框如下所示:

print(my_data[1,])

#provided for clarity
[1] c("https:
1073 Levels:  ... Zloc-60-Qt-WeatherShield-Storage-Box-Clear

这是一个很长的清单....

print(mydata)

549818028
311                                                      Quilted-        
Northern-Ultra-Plush-24-Double-Rolls-Toilet-Paper-Bath-Tissue
312                                                                                                                   
49883627
313                                                                       
Great-Value-Bath-Tissue-Ultra-Strong-24-Double-Rolls
314                                                                                                                  
910596048
315                                                    Quilted- 
Northern-Ultra-Soft-Strong-Bathroom-Tissue-2-Ply-White-12-rolls
316                                                                                                                  
170741025
317                                                                               
Great-Value-1000-Sheets-Bath-Tissue-12-Rolls
318                                                                                                                   
32631328
319                                                                      
Great-Value-Bath-Tissue-Everyday-Soft-24-Double-Rolls
320                                                                                                                  
118420428
321                                                                       
Great-Value-Bath-Tissue-Ultra-Strong-12-Double-Rolls
322                                                                                                                  
935578946
事情似乎还可以,但是当我打印任何元素时,我都有额外的东西 底部的文字片段:

> print(jacks_new_list[315,])
[1] Quilted-Northern-Ultra-Soft-Strong-Bathroom-Tissue-2-Ply-White- 
12-rolls
1073 Levels:  ... Zloc-60-Qt-WeatherShield-Storage-Box-Clear

我试图删除现在出现在每个元素行上的这个片段 " 1073级别:...... Zloc-60-Qt-WeatherShield-Storage-Box-Clear" 到目前为止,我已经尝试使用grep摆脱它而没有成功。我也无法确定是否存在新的线路,因为我没有在文本中看到任何实际写入的线路。

最终,这将是两列标题及其对应的数字。因此,数字必须清晰易读且无垃圾,以便以后使用。

仅供参考,三位数字是索引,而不是数据框元素中字符串信息的一部分

2 个答案:

答案 0 :(得分:1)

您正在打印一个因素,这是正常输出。 这是一个例子:

iris$Species <- as.factor(iris$Species)
print(iris$Species[1])

将变量因子转换为字符:

iris$Species <- as.character(iris$Species)
print(iris$Species[1])

真正的问题是为什么你甚至关心打印输出的样子。

答案 1 :(得分:0)

执行此操作以删除有关因子级别的额外信息:

print(as.character(jacks_new_list[315,]))