数据清理,合作网络

时间:2014-11-28 18:39:27

标签: r networking analysis social data-cleansing

我是使用R和我尝试从Scopus清理数据库的新手,它是一个Excel工作表,其中包含用空格,逗号,分号等分隔的大量信息的单元格。我的想法是使用"文本分隔数据到单元格" MS Excel命令和稍后使用MS Access和替换按钮来清理数据。但是,我知道R有很多数据挖掘功能,所以我想问你的意见......

我有一个532行的列,每个单元格都有类似这样的结构:

Bitzer,V。,南非绿点开普敦波特伍德路开普敦大学商学院; Glasbergen,P.,可持续发展治理ICIS,马斯特里赫特大学,P.O。 Box 616Maastricht,MD,荷兰

正如你所看到的,字符串以一个名字" Bitzer,V。"开头。其后是其附属学校和分号,以分隔每位作者。

我需要提取一些属于特定大学联盟的作者,然后根据纸张合作构建对子。

任何建议都会非常感谢...

马里奥

1 个答案:

答案 0 :(得分:0)

我不熟悉R,但这似乎是OpenRefine的工作。 您可以使用Regex搜索字符串并创建自定义过滤器/构面以缩小数据集范围。

清理数据后,您可以将其导出为csv或Excel格式,然后将其导入Access。