使用R或Python子集数据

时间:2015-01-06 02:46:55

标签: python r csv

我想要对以下数据集进行子集化。具体来说,我只想检索1)ID,2)ASIN,3)Group,4)salesrank,以及" csv"格式。我将使用R或Python。 (R不能经常阅读这种不规则的数据格式)。

以下数据没有通常的格式,因此我不知道如何对其进行子集化。我有两年了 在R中的经验但主要是使用该工具进行统计。所以,我不习惯用不寻常的格式来处理这种数据操作。如果有人能给我答案(或线索),那就太好了。 在底部是一组由" key:value"组成的数据。最终的结果应该是这样的 这样:

Id   ASIN     group salesrank categories
 1  0827229534 Book  396585     2

原始数据如下:

************************************************************************************************
Id:   1

ASIN: 0827229534

title: Patterns of Preaching: A Sermon Sampler

group: Book

salesrank: 396585

similar: 5  0804215715  156101074X  0687023955  0687074231  082721619X

categories: 2

|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Preaching[12368]

|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Sermons[12370]

reviews: total: 2  downloaded: 2  avg rating: 5

2000-7-28  cutomer: A2JW67OY8U6HHK  rating: 5  votes:  10  helpful:   9

2003-12-14  cutomer: A2VE83MZF98ITY  rating: 5  votes:   6  helpful:   5

1 个答案:

答案 0 :(得分:1)

您可以通过

尝试R
  1. 使用readLines
  2. 读取文件
  3. 使用paste
  4. 创建一个使用subsetgrep行的模式
  5. split" lines1"进入list,每个prefix组都有列表元素。在split之前,我使用LHS删除了RHS的{​​{1}}和:
  6. sub使用cbind的列表元素并将其转换为do.call(cbind
  7. 这将返回班级data.frame的列。目前尚不清楚哪一个应该是character
  8. 注意:我创建了两条记录来重现问题。

    character/numeric