Question

我有一个制表符分隔的文件，其中包含3列（BookID，BookName，BookReview）; 样本数据;

0001    Hannibal    This was a great book that is awesome.....etc.......

我正在尝试对书评进行文本挖掘，但我需要维护数据集的结构，以便我可以一次挖掘每个书ID，而不是将所有评论混合在一起。当我尝试将其读入R时，我收到错误并丢失了大部分记录

我正在努力;

dat <- read.table(~/my_text.txt,sep='\t')

如何在不丢失数据的情况下将其读入R？

Answer 1

在这里，假设你有宽度固定。

   read.fwf("file path to the text file", widths = 
                                          c(width of variable 1,
                                            width of variable 2,
                                            width of variable 3
                                           )
             )

示例：

read.fwf("C:/Users/Infinite Flash/Downloads/Datasets/APR05FRL.TXT", widths = c(10,6,12))

有关更多信息和细节，我建议您查看以下链接：

http://www.cookbook-r.com/Data_input_and_output/Loading_data_from_a_file/

如果这一点都没有用，请解释原因。

在保持列结构

1 个答案: