匹配来自不同来源的体育数据

时间:2018-11-06 13:07:35

标签: python r

问题:我正在从不同来源收集足球比赛的数据,我想进行比较。问题在于来源具有不同的格式,例如

"TSG Hoffenheim - Olympique Lyon"
"Hoffenheim - Lyon"
"1899 Hoffenheim - Olympique Lyonnais"

所有这些都对应于同一事件,但是我不确定如何有效地匹配那些事件。

尝试:

  1. 使用指标(例如stringdist)可能是一种选择:我测试了stringdist(x,y,"jw") < epsilon形式的解决方案,其中epsilon表示我设置的固定阈值,“ jw “所选指标。但是,这可能会导致错误的匹配结果

    "Atletico Madrid - Manchester City"
    "Real Madrid - Manchester United"
    

    其中对应于两个不同的事件。这里有一些方法可以限制误报,例如仅比较来自同一比赛,同一日期发生的事件等,但即使这样也无法完美运行。

  2. 另一种可能性是创建用作参考的主文件/功能(俱乐部清单等)。我已经开始了,但是这是非常繁重的体力劳动,如果可能的话,我想避免。

到目前为止,我所做的所有测试都是在r中进行的,但是如果在python中有解决此问题的简便方法,我会很乐意这样做。任何建议,将不胜感激。

0 个答案:

没有答案