Python的id()有多独特?

时间:2018-08-30 12:01:03

标签: python python-3.x unit-testing memory

tl; dr Python是否会重用ID?生命周期不重叠的两个对象获得相同ID的可能性有多大?

背景: 我一直在从事一个纯粹用Python 3编写的复杂项目。我一直在测试中看到一些问题,并花了大量时间寻找根本原因。经过一些分析,我怀疑当测试整体运行(由专门的调度员精心组织并运行)时,它正在重用某些模拟方法,而不是使用其原始方法实例化新对象。为了检查解释程序是否正在重用,我使用了id()

问题: id()通常可以正常工作并显示对象标识符,并让我知道我的呼叫何时创建新实例而不重新使用。但是,如果两个对象相同,则id会怎样? The documentation说:

  

返回对象的“身份”。这是一个整数,可以保证在此对象的生存期内唯一且恒定。具有不重叠生存期的两个对象可能具有相同的id()值。

问题:

  1. 解释器何时可以重用id()值?只是当它随机选择相同的存储区时?如果只是随机的,这似乎极不可能,但仍不能保证。

  2. 是否还有其他方法可以检查我实际引用的对象?我遇到了一个对象,它有一个模拟方法的情况。该对象不再使用,垃圾回收器将其销毁。之后,我创建了一个相同类的新对象,它获得了一个新的id(),但是该方法具有与被模拟时相同的ID,实际上它只是一个模拟。 p>

  3. 是否有一种方法可以强制Python破坏给定的对象实例?从阅读的内容来看,似乎没有,这取决于垃圾回收器,因为它看不到对该对象的引用,但我仍然认为值得一问。

3 个答案:

答案 0 :(得分:11)

是的,CPython重新使用了id()值。 不要指望它们在Python程序中是唯一的

这是clearly documented

  

返回对象的“身份”。这是一个整数,在此对象的生存期内,保证该对象唯一且恒定。生命周期不重叠的两个对象可能具有相同的id()值。

我强调大胆。仅当对象为 alive 时,id才是唯一的。没有引用的对象将从内存中删除,从而允许将id()值重新用于另一个对象,从而使不重叠的生存期措辞。

请注意,这仅适用于CPython,这是python.org提供的标准实现。还有其他Python实现,例如IronPython,Jython和PyPy,它们对如何实现id()做出了自己的选择,因为它们各自可以在如何处理内存和对象生存期方面做出不同的选择。

要解决您的特定问题:

  1. 在CPython中,id()是内存地址。新对象将被放入下一个可用的存储空间,因此,如果特定的内存地址具有足够的空间来容纳下一个新对象,则该存储地址将被重用。创建相同大小的新对象时,您可以在解释器中看到这一点:

    >>> id(1234)
    4546982768
    >>> id(4321)
    4546982768
    

    1234文字创建一个新的整数对象,id()为此生成一个整数值。由于没有对int值的进一步引用,因此它将再次从内存中删除。但是,使用不同的整数文字再次执行相同的表达式,很可能会看到相同的id()值(运行垃圾回收破坏循环引用可以释放更多的内存,所以您也可以 再次看到相同的id()

    所以它不是不是随机的,但是在CPython中,它是内存分配算法的功能。

  2. 如果需要检查特定对象,请保留自己的引用。如果您只需要确保对象仍然处于“活动状态”,则可以是weakref weak reference

    例如,先记录一个对象引用,然后再检查它:

    import weakref
    
    # record
    object_ref = weakref.ref(some_object)
    
    # check if it's the same object still
    some_other_reference is object_ref()   # only true if they are the same object
    

    弱引用不会使对象保持活动状态,但是如果它处于活动状态,则object_ref()将返回它(否则将返回None)。 / p>

    您可以使用这种机制生成真正唯一的标识符,请参见下文。

  3. 要“销毁”对象,您要做的就是删除对该对象的所有引用。变量(本地和全局)是引用。其他对象的属性以及列表,元组,字典,集合等容器中的条目也是如此。

    对一个对象的所有引用消失之后,该对象上的引用计数将下降为0,然后在该位置删除它。

    只需

    垃圾收集即可破坏循环引用,这些对象仅相互引用,而无需进一步引用循环。由于这样的循环在没有帮助的情况下永远不会达到0的引用计数,因此垃圾收集器会定期检查此类循环并中断其中一个引用以帮助从内存中清除那些对象。

    因此,您可以通过删除对对象的所有引用,将其从内存中删除(释放)。如何实现取决于对象的引用方式。您可以要求解释器使用gc.get_referrers() function来告诉您哪些对象在引用给定对象,但是要考虑到没有给您变量名。它为您提供对象,例如字典对象,该对象是模块的__dict__属性,该模块将对象引用为全局对象,等等。对于完全在您控制之下的代码,最多使用gc.get_referrers()作为工具提醒自己在编写代码删除对象时引用对象的位置。

如果在 Python应用程序的生存期内必须具有唯一的标识符,则必须实现自己的工具。如果您的对象是可散列的并且支持弱引用,那么您可以使用WeakKeyDictionary instance将任意对象与UUIDs关联:

from weakref import WeakKeyDictionary
from collections import defaultdict
from uuid import uuid4

class UniqueIdMap(WeakKeyDictionary):
    def __init__(self, dict=None):
        super().__init__(self)
        # replace data with a defaultdict to generate uuids
        self.data = defaultdict(uuid4)
        if dict is not None:
            self.update(dict)

uniqueidmap = UniqueIdMap()

def uniqueid(obj):
    """Produce a unique integer id for the object.

    Object must me *hashable*. Id is a UUID and should be unique
    across Python invocations.

    """
    return uniqueidmap[obj].int

这仍然会产生整数,但是由于它们是UUID,因此不能保证唯一,但是在期间您永远遇到相同ID的可能性您的寿命比被陨石击中要短。参见How unique is UUID?

这甚至为具有非重叠生命周期的对象提供了唯一的ID:

>>> class Foo:
...     pass
...
>>> id(Foo())
4547149104
>>> id(Foo())  # memory address reused
4547149104
>>> uniqueid(Foo())
151797163173960170410969562162860139237
>>> uniqueid(Foo())  # but you still get a unique UUID
188632072566395632221804340107821543671

答案 1 :(得分:2)

该ID在当前存在的对象中是唯一的。如果垃圾回收器删除了一个对象,则将来的对象可以具有相同的ID(很可能会)。您必须使用自己的唯一值(例如,某些uuid)以确保您引用的是特定对象。您也不能手动进行垃圾收集。

答案 2 :(得分:2)

  1. 一旦拥有id值的对象不再在任何范围内,它就可以重用。实际上,如果您在销毁第一个对象之后立即创建类似的对象,则很可能会重用它。

  2. 如果您持有引用(而不是weak reference),则id不会被重用,因为该对象仍然有效。如果仅保留id值,则可能是您做错了什么。

  3. 否,但是您可以删除参考和request the garbage collector to run。即使没有真正的实时引用,垃圾回收也可能无法收集该对象。