r中数据框内的文本分析

时间:2016-08-21 09:15:09

标签: r text-analysis

我正在处理Google Store元数据并将其作为数据框架。每个应用程序都有一个单元格中所请求权限的信息,作为长文本,例如:

  

阅读敏感日志数据|检索运行应用程序|查找设备上的帐户|阅读您自己的联系人卡片|阅读您的联系人|

我想在" |"之间分隔文字。字符分成不同的单元格(列),所以我可以分析现有的权限。我之前没有用R分析文本。我尝试使用字符串函数,但是,当查看单元格中的信息时,它不会被识别为字符串。

有什么建议,指示?谢谢!

1 个答案:

答案 0 :(得分:1)

您可以这样做: 示例字符串 -

strin1 <- "READ SENSITIVE LOG DATA|RETRIEVE RUNNING APPS|FIND ACCOUNTS ON THE DEVICE|READ YOUR OWN CONTACT CARD|READ YOUR CONTACTS|"

read.table(text = strin1, sep ='|', colClasses = character)

诀窍。

更好的解决方案是在此答案中使用tidyr包:Splitting a dataframe string column into multiple different columns