Question

我想要对以下数据集进行子集化。具体来说，我只想检索1）ID，2）ASIN，3）Group，4）salesrank，以及＆＃34; csv＆＃34;格式。我将使用R或Python。（R不能经常阅读这种不规则的数据格式）。

以下数据没有通常的格式，因此我不知道如何对其进行子集化。我有两年了在R中的经验但主要是使用该工具进行统计。所以，我不习惯用不寻常的格式来处理这种数据操作。如果有人能给我答案（或线索），那就太好了。在底部是一组由＆＃34; key：value＆＃34;组成的数据。最终的结果应该是这样的这样：

Id   ASIN     group salesrank categories
 1  0827229534 Book  396585     2

原始数据如下：

************************************************************************************************
Id:   1

ASIN: 0827229534

title: Patterns of Preaching: A Sermon Sampler

group: Book

salesrank: 396585

similar: 5  0804215715  156101074X  0687023955  0687074231  082721619X

categories: 2

|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Preaching[12368]

|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Sermons[12370]

reviews: total: 2  downloaded: 2  avg rating: 5

2000-7-28  cutomer: A2JW67OY8U6HHK  rating: 5  votes:  10  helpful:   9

2003-12-14  cutomer: A2VE83MZF98ITY  rating: 5  votes:   6  helpful:   5

Answer 1

您可以通过

尝试R

使用readLines
使用paste

subset

grep

split＆＃34; lines1＆＃34;进入list，每个prefix组都有列表元素。在split之前，我使用LHS删除了RHS的{{1}}和:。
sub使用cbind的列表元素并将其转换为do.call(cbind
这将返回班级data.frame的列。目前尚不清楚哪一个应该是character

注意：我创建了两条记录来重现问题。

character/numeric

使用R或Python子集数据

1 个答案: