我试图仅根据推文内容的特点估计Twitter上的推文的地理坐标。我使用了this论文中的算法。
基本上,来自用户的推文被收集并预处理以创建序列/字数矢量。提取子矢量(块)并且使用无监督学习方法来学习词典(KSVD)。使用学习的词典,可以找到稀疏代码。之后,引入了最大池方案。最后,创建一个查找表,其中包含键(稀疏代码)/值(地理坐标)的条目。为了估计推文(同一用户)的地理坐标,我们计算相应的稀疏码,然后使用kNN找到邻居。可以通过这些相邻向量的平均值来估计地理坐标。
以下是我实现算法的方法:
可以看出,该算法运行速度非常快,需要10分钟进行训练,5分钟进行测试。但是,我从未获得过高精度。事实上,平均值距离误差总是在1000公里左右,这不如纸张(500公里)那么好。我已经按照论文中的每一点,包括增强选项。这是我的Matlab source code。
嗯,我知道描述很长,但我试着以一种简单的方式解释我的理解。我希望你能帮助我提高准确性。 谢谢你的病人。