将字符串解析为数据帧

时间:2014-02-13 23:51:27

标签: r parsing

我有一堆看起来像这样的字符串:

 [3] "  3. Wiki: Los Angeles 3:58pm; score:1.959502"        
 [4] "  4. Wiki: Boston 6:58pm; score:1.959502"             
 [5] "  5. Disambiguation: 'Boon; score:1.934644"            
 [6] "  6. Wiki: The Note (album)\"; score:1.786931"          

我将它们解析成如下数据框:

read.csv(text=sub("^  [0-9]*\\. (Wiki|Disambiguation): (.*); score:([0-9\\.]*)$","\"\\2\",\\3",ll),
         header=FALSE,stringsAsFactors=FALSE)

麻烦的是我用引号括起的\\2文本本身可能包含引号(双引号和单引号)。

我该如何处理?

1 个答案:

答案 0 :(得分:1)

只需删除双引号:

ll <-  gsub('"', '', ll)

注意:海报后面的答案更改了一个错误的例子。