在保持列结构

时间:2016-03-13 18:48:34

标签: r text-mining

我有一个制表符分隔的文件,其中包含3列(BookID,BookName,BookReview); 样本数据;

0001    Hannibal    This was a great book that is awesome.....etc.......

我正在尝试对书评进行文本挖掘,但我需要维护数据集的结构,以便我可以一次挖掘每个书ID,而不是将所有评论混合在一起。当我尝试将其读入R时,我收到错误并丢失了大部分记录

我正在努力;

dat <- read.table(~/my_text.txt,sep='\t')

如何在不丢失数据的情况下将其读入R?

1 个答案:

答案 0 :(得分:0)

在这里,假设你有宽度固定。

   read.fwf("file path to the text file", widths = 
                                          c(width of variable 1,
                                            width of variable 2,
                                            width of variable 3
                                           )
             )

示例:

read.fwf("C:/Users/Infinite Flash/Downloads/Datasets/APR05FRL.TXT", widths = c(10,6,12))

有关更多信息和细节,我建议您查看以下链接:

http://www.cookbook-r.com/Data_input_and_output/Loading_data_from_a_file/

如果这一点都没有用,请解释原因。