使用常规编码器使对象JSON可序列化

时间:2013-08-28 02:04:01

标签: python json serialization

JSON序列化自定义非可序列化对象的常规方法是子类json.JSONEncoder,然后将自定义编码器传递给转储。

通常看起来像这样:

class CustomEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, foo):
            return obj.to_json()

        return json.JSONEncoder.default(self, obj)

print json.dumps(obj, cls = CustomEncoder)

我正在尝试做的是使用默认编码器进行序列化。我环顾四周但找不到任何东西。 我的想法是编码器会看到一些字段来确定json编码。与__str__类似的东西。也许是一个__json__字段。 在python中有这样的东西吗?

我想创建一个模块的类,我正在使用JSON序列化给使用该软件包的每个人,而不必担心实现他们自己的[普通]自定义编码器。

6 个答案:

答案 0 :(得分:66)

正如我在对您的问题的评论中所说,在查看json模块的源代码之后,它似乎并不适合做您想要的事情。然而,目标可以通过所谓的monkey-patching来实现 (见问题What is a monkey patch?)。 这可以在您的包的__init__.py初始化脚本中完成,并且会影响所有后续的json模块序列化,因为模块通常只加载一次,结果缓存在sys.modules中。

补丁会更改默认的json编码器的default方法 - 默认default()

为简单起见,这是一个作为独立模块实现的示例:

模块:make_json_serializable.py

""" Module that monkey-patches json module when it's imported so
JSONEncoder.default() automatically checks for a special "to_json()"
method and uses it to encode the object if found.
"""
from json import JSONEncoder

def _default(self, obj):
    return getattr(obj.__class__, "to_json", _default.default)(obj)

_default.default = JSONEncoder.default  # Save unmodified default.
JSONEncoder.default = _default # Replace it.

使用它是微不足道的,因为通过简单地导入模块来应用补丁。

示例客户端脚本:

import json
import make_json_serializable  # apply monkey-patch

class Foo(object):
    def __init__(self, name):
        self.name = name
    def to_json(self):  # New special method.
        """ Convert to JSON format string representation. """
        return '{"name": "%s"}' % self.name

foo = Foo('sazpaz')
print(json.dumps(foo))  # -> "{\"name\": \"sazpaz\"}"

要保留对象类型信息,特殊方法还可以将其包含在返回的字符串中:

        return ('{"type": "%s", "name": "%s"}' %
                 (self.__class__.__name__, self.name))

生成以下JSON,现在包含类名:

"{\"type\": \"Foo\", \"name\": \"sazpaz\"}"

Magick躺在这里

比替换default()寻找特别命名的方法更好的是,它能够自动序列化大多数Python对象 ,包括用户定义的类实例,需要添加一个特殊的方法。在研究了许多替代方案后,使用pickle模块的以下内容似乎与我的理想最接近:

模块:make_json_serializable2.py

""" Module that imports the json module and monkey-patches it so
JSONEncoder.default() automatically pickles any Python objects
encountered that aren't standard JSON data types.
"""
from json import JSONEncoder
import pickle

def _default(self, obj):
    return {'_python_object': pickle.dumps(obj)}

JSONEncoder.default = _default  # Replace with the above.

当然,一切都不能被腌制 - 扩展类型。然而,有一些方法可以通过编写特殊方法来定义处理它们 - 类似于你建议和我之前描述的方法 - 但这样做可能对于少得多的情况是必要的。

无论如何,使用pickle协议还意味着通过在寻找object_hook的任何json.loads()调用上提供自定义'_python_object'函数参数来重建原始Python对象相当容易。传入字典中的键。例如:

def as_python_object(dct):
    if '_python_object' in dct:
        return pickle.loads(str(dct['_python_object']))
    return dct

pyobj = json.loads(json_str, object_hook=as_python_object)

如果必须在很多地方完成,那么定义一个自动提供额外关键字参数的包装函数可能是值得的:

json_pkloads = functools.partial(json.loads, object_hook=as_python_object)

pyobj = json_pkloads(json_str)

当然,也可以将其修补到json模块中,使该函数成为默认值object_hook(而不是None)。

我从answerRaymond Hettinger使用pickle到另一个JSON序列化问题的想法,我认为这些问题非常可信,也是官方来源(如Python核心开发人员) )。

Python 3的可移植性

上面的代码不能像Python 3中所示那样工作,因为json.dumps()会返回bytes无法处理的JSONEncoder对象。但是这种方法仍然有效。解决此问题的一种简单方法是latin1“解码”从pickle.dumps()返回的值,然后在latin1中对其进行“编码”,然后再将其传递给pickle.loads() as_python_object()功能。这是有效的,因为任意二进制字符串都是有效的latin1,它总是可以解码为Unicode,然后再次编码回原始字符串(如this answer Sven Marnach中指出的那样)。

(虽然以下在Python 2中运行良好,但它所做的latin1解码和编码是多余的。)

from decimal import Decimal

class PythonObjectEncoder(json.JSONEncoder):
    def default(self, obj):
        return {'_python_object': pickle.dumps(obj).decode('latin1')}

def as_python_object(dct):
    if '_python_object' in dct:
        return pickle.loads(dct['_python_object'].encode('latin1'))
    return dct

data = [1,2,3, set(['knights', 'who', 'say', 'ni']), {'key':'value'},
        Decimal('3.14')]
j = json.dumps(data, cls=PythonObjectEncoder, indent=4)
data2 = json.loads(j, object_hook=as_python_object)
assert data == data2  # both should be same

答案 1 :(得分:11)

您可以像这样扩展dict类:

#!/usr/local/bin/python3
import json

class Serializable(dict):

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        # hack to fix _json.so make_encoder serialize properly
        self.__setitem__('dummy', 1)

    def _myattrs(self):
        return [
            (x, self._repr(getattr(self, x))) 
            for x in self.__dir__() 
            if x not in Serializable().__dir__()
        ]

    def _repr(self, value):
        if isinstance(value, (str, int, float, list, tuple, dict)):
            return value
        else:
            return repr(value)

    def __repr__(self):
        return '<%s.%s object at %s>' % (
            self.__class__.__module__,
            self.__class__.__name__,
            hex(id(self))
        )

    def keys(self):
        return iter([x[0] for x in self._myattrs()])

    def values(self):
        return iter([x[1] for x in self._myattrs()])

    def items(self):
        return iter(self._myattrs())

现在,要使用常规编码器使您的类可序列化,请扩展'Serializable':

class MySerializableClass(Serializable):

    attr_1 = 'first attribute'
    attr_2 = 23

    def my_function(self):
        print('do something here')


obj = MySerializableClass()

print(obj)将打印如下内容:

<__main__.MySerializableClass object at 0x1073525e8>

print(json.dumps(obj, indent=4))将打印如下内容:

{
    "attr_1": "first attribute",
    "attr_2": 23,
    "my_function": "<bound method MySerializableClass.my_function of <__main__.MySerializableClass object at 0x1073525e8>>"
}

答案 2 :(得分:4)

我建议将hack放入类定义中。这样,一旦定义了类,它就支持JSON。例如:

import json

class MyClass( object ):

    def _jsonSupport( *args ):
        def default( self, xObject ):
            return { 'type': 'MyClass', 'name': xObject.name() }

        def objectHook( obj ):
            if 'type' not in obj:
                return obj
            if obj[ 'type' ] != 'MyClass':
                return obj
            return MyClass( obj[ 'name' ] )
        json.JSONEncoder.default = default
        json._default_decoder = json.JSONDecoder( object_hook = objectHook )

    _jsonSupport()

    def __init__( self, name ):
        self._name = name

    def name( self ):
        return self._name

    def __repr__( self ):
        return '<MyClass(name=%s)>' % self._name

myObject = MyClass( 'Magneto' )
jsonString = json.dumps( [ myObject, 'some', { 'other': 'objects' } ] )
print "json representation:", jsonString

decoded = json.loads( jsonString )
print "after decoding, our object is the first in the list", decoded[ 0 ]

答案 3 :(得分:1)

覆盖JSONEncoder().default的问题是您只能执行一次。如果您偶然发现任何与该模式无关的特殊数据类型(例如,如果您使用奇怪的编码)。使用下面的模式,您可以始终使您的类JSON可序列化,前提是您要序列化的类字段本身是可序列化的(并且可以添加到python列表,几乎没有任何东西)。否则,您必须递归地将相同的模式应用于您的json字段(或从中提取可序列化数据):

# base class that will make all derivatives JSON serializable:
class JSONSerializable(list): # need to derive from a serializable class.

  def __init__(self, value = None):
    self = [ value ]

  def setJSONSerializableValue(self, value):
    self = [ value ]

  def getJSONSerializableValue(self):
    return self[1] if len(self) else None


# derive  your classes from JSONSerializable:
class MyJSONSerializableObject(JSONSerializable):

  def __init__(self): # or any other function
    # .... 
    # suppose your__json__field is the class member to be serialized. 
    # it has to be serializable itself. 
    # Every time you want to set it, call this function:
    self.setJSONSerializableValue(your__json__field)
    # ... 
    # ... and when you need access to it,  get this way:
    do_something_with_your__json__field(self.getJSONSerializableValue())


# now you have a JSON default-serializable class:
a = MyJSONSerializableObject()
print json.dumps(a)

答案 4 :(得分:0)

我不明白为什么你不能为自己的班级写一个serialize函数?您可以在类本身内部实现自定义编码器,并允许“people”调用序列化函数,该函数将基本上返回self.__dict__并删除函数。

编辑:

This question同意我的观点,最简单的方法是编写自己的方法并返回所需的json序列化数据。他们还建议尝试jsonpickle,但现在你在内置正确的解决方案时为美容添加额外的依赖。

答案 5 :(得分:0)

对于生产环境,请使用自己的自定义编码器准备json本身的模块,以明确表示您可以覆盖某些内容。 不建议使用猴子补丁,但是您可以在testenv中进行猴子补丁。

例如,

class JSONDatetimeAndPhonesEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, (datetime.date, datetime.datetime)):
            return obj.date().isoformat()
        elif isinstance(obj, basestring):
            try:
                number = phonenumbers.parse(obj)
            except phonenumbers.NumberParseException:
                return json.JSONEncoder.default(self, obj)
            else:
                return phonenumbers.format_number(number, phonenumbers.PhoneNumberFormat.NATIONAL)
        else:
            return json.JSONEncoder.default(self, obj)

您想要的:

有效载荷= json.dumps(您的数据,cls = JSONDatetimeAndPhonesEncoder)

或:

有效载荷= your_dumps(您的数据)

或:

有效载荷= your_json.dumps(您的数据)

但是,在测试环境中,请保持警惕:

@pytest.fixture(scope='session', autouse=True)
def testenv_monkey_patching():
    json._default_encoder = JSONDatetimeAndPhonesEncoder()

这会将您的编码器应用于所有json.dumps次出现。