我有一个制表符分隔的文件,其中包含3列(BookID,BookName,BookReview); 样本数据;
0001 Hannibal This was a great book that is awesome.....etc.......
我正在尝试对书评进行文本挖掘,但我需要维护数据集的结构,以便我可以一次挖掘每个书ID,而不是将所有评论混合在一起。当我尝试将其读入R时,我收到错误并丢失了大部分记录
我正在努力;
dat <- read.table(~/my_text.txt,sep='\t')
如何在不丢失数据的情况下将其读入R?
答案 0 :(得分:0)
在这里,假设你有宽度固定。
read.fwf("file path to the text file", widths =
c(width of variable 1,
width of variable 2,
width of variable 3
)
)
示例:
read.fwf("C:/Users/Infinite Flash/Downloads/Datasets/APR05FRL.TXT", widths = c(10,6,12))
有关更多信息和细节,我建议您查看以下链接:
http://www.cookbook-r.com/Data_input_and_output/Loading_data_from_a_file/
如果这一点都没有用,请解释原因。