Question

我想解析一个类似于JSON的文本文件。在一些字符转换之后，它仍然有一些具有关键冲突的对象。所以我的JSON看起来像这样：

{
    "key1": {
        "a": "asdf",
        "a": "foo",
        "a": "bar",
        "a": "fdas"
    }
}

我想解决这个问题：

{
    "key1": {
        "a": [
            "asdf",
            "foo",
            "bar",
            "fdas"
        ]
    }
}

我尝试用JsonCpp实现这一点，但它无法处理关键冲突。所以我选择使用RapidJSON，特别是因为它可以在解析时保留所有关键冲突成员。

然后解决密钥冲突而不丢失信息，我编写了以下递归RapidJSON cpp代码：

void resolveKeyConflicts(rj::Value& value) {
    if (value.IsObject()) {
        std::map<std::string, unsigned int> nameCount;
        for (rj::Value::MemberIterator vMIt = value.MemberBegin();
                vMIt != value.MemberEnd(); vMIt++) {
            std::string name(vMIt->name.GetString());
            if (nameCount.find(name) == nameCount.end()) {
                nameCount[name] = 1;
            } else {
                nameCount[name] += 1;
            }
        }

        for (std::map<std::string, unsigned int>::iterator nCIt =
                nameCount.begin(); nCIt != nameCount.end(); nCIt++) {
            if (nCIt->second > 1) {
                rj::Value newArray(rj::kArrayType);
                for (rj::Value::MemberIterator vFMIt = value.FindMember(
                        nCIt->first.c_str()); vFMIt != value.MemberEnd();
                        vFMIt++) {
                    if (vFMIt->name.GetString() == nCIt->first) {
                        rj::Value value(vFMIt->value, this->GetAllocator());
                        newArray.PushBack(value, this->GetAllocator());
                    }
                }

                value.EraseMember(value.FindMember(nCIt->first.c_str()),
                        value.MemberEnd());
                rj::Value key(nCIt->first.c_str(), nCIt->first.length(),
                        this->GetAllocator());
                value.AddMember(key, newArray, this->GetAllocator());
            }
        }

        for (rj::Value::MemberIterator vMIt = value.MemberBegin();
                vMIt != value.MemberEnd(); vMIt++) {
            if (vMIt->value.IsObject() || vMIt->value.IsArray()) {
                resolveKeyConflicts(vMIt->value);
            }
        }
    } else if (value.IsArray()) {
        for (rj::Value::ValueIterator vVIt = value.Begin(); vVIt != value.End();
                vVIt++) {
            resolveKeyConflicts(*vVIt);
        }
    }
}

只要冲突的密钥成员是该对象中的唯一成员，这就非常有效。我认为，这可以使用更简单的代码进行存档，但我还尝试解决这样的任意键冲突：

{
    "key2": {
        "a": "asdf",
        "b": "foo",
        "b": "bar",
        "c": "fdas"
    }
}

进入这个：

{
    "key2": {
        "a": "asdf",
        "b": [
            "foo",
            "bar"
        ],
        "c": "fdas"
    }
}

事实证明，FindMember没有像我想的那样，在所有具有相同键名的成员上返回迭代器，而只是第一个成员使用该键的位置。我认为我的python思维方式可能与我对FindMember的期望相混淆。像这样，代码将失去"c": "fdas"成员。

我依赖于MemberIterator EraseMember(MemberIterator first, MemberIterator last)，因为删除http://rapidjson.org/md_doc_tutorial.html#ModifyObject中提到的成员的所有其他方法似乎在删除key1案例中的最后一个成员时遇到了问题。但EraseMember这样的情况绝对是key2案例的错误选择。

所以我有点迷失在这里。可以请有人指出我正确的方向来解决关键冲突而不会丢失信息，这可以处理key1和key2案件吗？

编辑：我使用的是来自https://github.com/miloyip/rapidjson/tree/v1.0.2的v1.0.2标记的RapidJSON。

Answer 1

我认为棘手的部分是记住密钥是否已经扩展到数组（因为该值可能最初是一个数组）。

所以，另一种方法是首先将所有key: value转换为key:[value]，进行合并，然后如果数组中只有一个元素，则转换回key: value。

这是我的尝试：

static void MergeDuplicateKey(Value& v, Value::AllocatorType& a) {
    if (v.IsObject()) {
        // Convert all key:value into key:[value]
        for (Value::MemberIterator itr = v.MemberBegin(); itr != v.MemberEnd(); ++itr)
            itr->value = Value(kArrayType).Move().PushBack(itr->value, a);

        // Merge arrays if key is duplicated
        for (Value::MemberIterator itr = v.MemberBegin(); itr != v.MemberEnd();) {
            Value::MemberIterator itr2 = v.FindMember(itr->name);
            if (itr != itr2) {
                itr2->value.PushBack(itr->value[0], a);
                itr = v.EraseMember(itr);
            }
            else
                ++itr;
        }

        // Convert key:[values] back to key:value if there is only one value
        for (Value::MemberIterator itr = v.MemberBegin(); itr != v.MemberEnd(); ++itr) {
            if (itr->value.Size() == 1)
                itr->value = itr->value[0];
            MergeDuplicateKey(itr->value, a); // Recursion on the value
        }
    }
    else if (v.IsArray())
        for (Value::ValueIterator itr = v.Begin(); itr != v.End(); ++itr)
            MergeDuplicateKey(*itr, a);
}

我在this commit进行了测试。

Answer 2

我完全重写了那一部分，再次尝试了另一种方法。我想我找到了一个非常优雅的解决方案：

void resolveKeyConflicts(rj::Value& value) {
    if (value.IsObject()) {
        std::vector<std::string> resolvedConflicts;
        rj::Value newValue(rj::kObjectType);
        for (rj::Value::MemberIterator vMIt = value.MemberBegin();
                vMIt != value.MemberEnd(); vMIt++) {
            rj::Value::MemberIterator nVFMIt = newValue.FindMember(vMIt->name);
            if (nVFMIt == newValue.MemberEnd()) {
                rj::Value newKey(vMIt->name, this->GetAllocator());
                newValue.AddMember(newKey, vMIt->value, this->GetAllocator());
            } else {
                std::string conflict(vMIt->name.GetString(),
                        vMIt->name.GetStringLength());
                if (std::find(resolvedConflicts.begin(),
                        resolvedConflicts.end(), conflict)
                        == resolvedConflicts.end()) {
                    rj::Value newArray(rj::kArrayType);
                    nVFMIt->value.Swap(newArray);
                    nVFMIt->value.PushBack(newArray, this->GetAllocator());
                    nVFMIt->value.PushBack(vMIt->value, this->GetAllocator());

                    resolvedConflicts.push_back(conflict);
                } else {
                    nVFMIt->value.PushBack(vMIt->value, this->GetAllocator());
                }
            }
        }

        value.SetNull().SetObject();
        for (rj::Value::MemberIterator nVMIt = newValue.MemberBegin();
                nVMIt != newValue.MemberEnd(); nVMIt++) {
            if (nVMIt->value.IsObject() || nVMIt->value.IsArray()) {
                this->resolveKeyConflicts(nVMIt->value);
            }
            value.AddMember(nVMIt->name, nVMIt->value, this->GetAllocator());
        }
    } else if (value.IsArray()) {
        for (rj::Value::ValueIterator vVIt = value.Begin(); vVIt != value.End();
                vVIt++) {
            if (vVIt->IsObject() || vVIt->IsArray()) {
                this->resolveKeyConflicts(*vVIt);
            }
        }
    }
}

我对清空value.SetNull().SetObject()的{{1}}部分不太确定，但它有效。

如果您认为有改进的余地，请告诉我在哪里。感谢。

cpp RapidJSON - 在不丢失信息的情况下解决关键冲突

2 个答案: