遍历2个Json文件,每个文件有20万条记录

时间:2019-06-14 02:25:01

标签: javascript json dictionary filter reduce

我有2个大的json文件,每个200k对象,当我尝试在2个json之间循环以获得一个公共ID时,执行时间会更长。

实施1

for (var i in matterData.data) {
  const fobj = matterData.data[i];

  const  ma_array = [];
  for (var j in activityData.data) {
    const aobj = activityData.data[j];
    if (fobj.id === aobj.matter.id) {
      ma_array.push(aobj);
    }
    if (ma_array.length > 0) fobj.activities = ma_array;
  }
}

实施2

for (var i in matterData.data) {
  //Activities
  matters_array = [];
  matters_array = activityData.data.filter(function (el) {
    if (el.matter !== null) return el.matter.id == matterData.data[i].id;
  });
  if (matters_array.length > 0) matterData.data[i]["activities"] = matters_array;
}

实施3

for (var i in matterData.data) {
  matters_array = [];

  for (var j in activityData.data) {
    if (activityData.data[j]["matter"] !== null) {
        if (matterData.data[i].id === activityData.data[j]["matter"].id) {
            matters_array.push(activityData.data[j]);
        }
        if (matters_array.length > 0) matterData.data[i]["activities"] = matters_array;
    }
  }
}

每个实施都需要更多时间才能执行。

ActivitiesData将具有一个ID以及与somethingData.id相关的subject.id

任何见解,请帮助

重要数据


var matterData= {
  "data": [
    {
      "id": 1055395769,
      "description": "Peters",
      "status": "Pending",
      "location": null,
      "client_reference": "1532",
      "billable": true,
      "billing_method": "hourly",
      "open_date": "2019-06-05",
      "close_date": null,
}

]
};

活动数据

var activityData = {
  "data": [
    {
      "id":285568423,
      "type": "ExpenseEntry",
      "date": "2011-01-01",
      "quantity_in_hours": 1,
      "rounded_quantity_in_hours": 1,
      "quantity": 1,
      "rounded_quantity": 1,
      "price": 100,
      "matter": {
        "id": 1055395769
      }
      },
      {
      "id": 285568428,
      "type": "MonEntry", 
      "matter": {
        "id": 1055395769
      }
      },
      {
      "id": 285568442,
      "type": "EEntry", 
      "matter": {
        "id": 1055395769
      }}]
    };


4 个答案:

答案 0 :(得分:1)

首先创建一个以id为键,matter.data为值的映射,并为活动创建一个空数组,然后遍历该活动并将活动推入该空数组中

const map = {}
for( var i in matterData.data){
  map[matterData.data[i].id] = matterData.data[i];
  matterData.data[i].activities = [];
}

for(var i in activityData.data){
 var matter = map[activityData.data[i].matter.id];
 matter.activities.push(activityData.data[i]);
}
for( var i in matterData.data){
  console.log(matterData.data[i]);
}

仅当somethingData.data [i] .id唯一时,此解决方案才有效

答案 1 :(得分:0)

您正在运行一个O(n ^ 2)循环,该循环接近200000 * 200000循环。多数民众赞成在计算。您可以使用map降低这种复杂性。将activityData.data的所有值存储在具有ID的地图中。然后遍历一个matterData.data来检查ID是否存在于地图中。

答案 2 :(得分:0)

the answer with ruhul的实现

const map = Object.create(null);
const res = [];

// Store all values of matterData.data in map with id.
matterData.data.forEach(item => (map[item.id] = item));

//  iterate over one  activityData.data to check if the id exists in map.
activityData.data.forEach(item => {
  const { id } = item;
    if (map[id]) {
    res.push(item);
   }
});

答案 3 :(得分:0)

Set.has是O(1),我认为可以有效地用于此目的。

pickle