问题:我正在从不同来源收集足球比赛的数据,我想进行比较。问题在于来源具有不同的格式,例如
"TSG Hoffenheim - Olympique Lyon"
"Hoffenheim - Lyon"
"1899 Hoffenheim - Olympique Lyonnais"
所有这些都对应于同一事件,但是我不确定如何有效地匹配那些事件。
尝试:
使用指标(例如stringdist
)可能是一种选择:我测试了stringdist(x,y,"jw") < epsilon
形式的解决方案,其中epsilon
表示我设置的固定阈值,“ jw “所选指标。但是,这可能会导致错误的匹配结果
"Atletico Madrid - Manchester City"
"Real Madrid - Manchester United"
其中对应于两个不同的事件。这里有一些方法可以限制误报,例如仅比较来自同一比赛,同一日期发生的事件等,但即使这样也无法完美运行。
另一种可能性是创建用作参考的主文件/功能(俱乐部清单等)。我已经开始了,但是这是非常繁重的体力劳动,如果可能的话,我想避免。
到目前为止,我所做的所有测试都是在r
中进行的,但是如果在python
中有解决此问题的简便方法,我会很乐意这样做。任何建议,将不胜感激。