我正在寻找能够指导我构建算法的正确方向的指针。
情况很简单:有多条信息可能表明个人的地理位置。例如,最近的IP地址或TLD的电子邮件地址或明确提供的信息,如城镇或邮政编码。
这些信息位可能存在也可能不存在,它们可能具有一定的准确度(邮政编码比国家顶级域名更准确)和可靠性(IP可能比邮政编码更可靠,即使邮政编码会更准确)。此外,信息可能会老化。
我正在寻找创建一种算法,尝试根据此信息确定最可能的位置。我有几个关于如何解决这个问题的想法,主要涉及预先确定和计算得分的准确性和可靠性,但是很容易在这里找到漏洞。
处理此特定或类似问题的算法是什么?也许算法一般处理数据可靠性/准确性或地理信息的可靠性/准确性的实际统计数据?
答案 0 :(得分:2)
您希望找到最有可能的位置L
,给定一些信息I
。也就是说,您希望最大化条件概率
P(L|I) -> max
由于此功能P(L|I)
很难估算,因此通常会在此处应用Bayes' theorem:
P(L|I) = P(I|L)*P(L) / P(I)
分母P(I)
是该信息I
的概率。由于此信息是固定的,因此该术语是恒定的,并且对于找到上述最大值而言并不重要。 P(L)
是某个位置的无条件概率。像这个地方的人口密度这样的东西可能是一个很好的估计。最后,您需要P(I|L)
的模型,即获得I
给定位置L
的概率。对于多条信息,这将是个体概率的乘积:
P(I|L) = P(I1|L)*P(I2|L)*...
如果单个作品I1
,I2
,... conditionally independent给定位置L
,则此方法有效,这似乎就是这种情况。例如,某些邮政编码的可能性和某些蜂窝塔的可能性通常具有很强的相关性,但只要我们假设一个特定的位置L
,邮政编码就不再影响蜂窝塔的可能性了。 。
这些个人概率P(I1|L) ...
代表信息的可靠性和准确性,必须在外部提供。你必须在这里提出一些假设。作为一般规则,如果有疑问,您最好对信息的可靠性和准确性持悲观态度。
如果你过于悲观,你的结果会有所不同,但如果你过于乐观,你的结果很快就会完全错误。您需要记住的另一件事是最大化的可行性。如果找到最大值的努力变得太高,则P(I1|L)
的非常准确的模型是无用的。通常,为模型选择平滑函数最终会简化优化。