我想要对以下数据集进行子集化。具体来说,我只想检索1)ID,2)ASIN,3)Group,4)salesrank,以及" csv"格式。我将使用R或Python。 (R不能经常阅读这种不规则的数据格式)。
以下数据没有通常的格式,因此我不知道如何对其进行子集化。我有两年了 在R中的经验但主要是使用该工具进行统计。所以,我不习惯用不寻常的格式来处理这种数据操作。如果有人能给我答案(或线索),那就太好了。 在底部是一组由" key:value"组成的数据。最终的结果应该是这样的 这样:
Id ASIN group salesrank categories
1 0827229534 Book 396585 2
原始数据如下:
************************************************************************************************
Id: 1
ASIN: 0827229534
title: Patterns of Preaching: A Sermon Sampler
group: Book
salesrank: 396585
similar: 5 0804215715 156101074X 0687023955 0687074231 082721619X
categories: 2
|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Preaching[12368]
|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Sermons[12370]
reviews: total: 2 downloaded: 2 avg rating: 5
2000-7-28 cutomer: A2JW67OY8U6HHK rating: 5 votes: 10 helpful: 9
2003-12-14 cutomer: A2VE83MZF98ITY rating: 5 votes: 6 helpful: 5
答案 0 :(得分:1)
您可以通过
尝试R
readLines
paste
subset
到grep
行的模式
split
" lines1"进入list
,每个prefix
组都有列表元素。在split
之前,我使用LHS
删除了RHS
的{{1}}和:
。sub
使用cbind
的列表元素并将其转换为do.call(cbind
data.frame
的列。目前尚不清楚哪一个应该是character
注意:我创建了两条记录来重现问题。
character/numeric