在R中导入带有可变长度句子行的文本文件

时间:2015-03-11 11:52:05

标签: r

我正在尝试导入和读取R中的文本文件。此文件具有可变长度的英语句子,如下所示:

Lorem ipsum dolor sit amet Sed pulvinar enim ac maximus auctor。
Nunc tincidunt sapien quis magna ultricies porttitor。
Cras sagittis augue sit。

我打算将每个单词放在不同的列中,以便找出在第一个位置,第二个位置等处使用的单词的频率。但是我无法在R中导入文件。我想知道是否有任何方法可以读取文本文件并使用“”空格作为分隔符在不同的列中插入单词。

1 个答案:

答案 0 :(得分:4)

这是一个明确的例子。尾随期保留,因此需要将其删除。此外,还有一个警告,因为最后一行包含较少的“列”。

read.table("yourexampletext.txt", sep=" ", fill=T, strip.white=T, skipNul=T)
     V1        V2     V3   V4      V5        V6         V7
1 Lorem     ipsum  dolor  sit   amet.                     
2   Sed  pulvinar   enim   ac maximus   auctor.           
3  Nunc tincidunt sapien quis   magna ultricies porttitor.
4  Cras  sagittis  augue sit.                             
Warning message:
In read.table("yourexampletext.txt", sep = " ", fill = T, strip.white = T,  :
  incomplete final line found by readTableHeader on 'yourexampletext.txt'