我想分析具有相似数据的表,这些表的结构不同,并且标题也可能略有不同。
要从汇总表中收集所有数据,我会遇到几个问题。
第1步:我寻找标题关键字。无法搜索“ cars == cars”,因为标题可能显示为“ car”,“ Car”或“ Cars”。也有可能单词中存在拼写错误。因此,遍历所有可能性也可能导致错误。 当我寻找解决方案时,我发现了模糊逻辑,但是我对其他方法表示感谢。
第2步:我在表中找到了所需的关键字,但是我如何知道相关数据的放置位置?它可以在它下面,但也可以在它旁边。有没有办法获取有关表的一般结构的信息?
答案 0 :(得分:0)
第a步(第1部分)-天真的实现是字典距离(如您要处理的拼写错误)
步骤a(第2部分)-使用同义词数据库/同义词库查找名称相似的列
步骤b(第1部分)-数据与标头对齐的方式相同-因此,如果标头垂直对齐,则数据也将对齐
步骤b(第2部分)-相似的数据将具有相似的数据类型(原始字符串,数字,邮政编码),通过向右和向下检查,您可以检测出哪个才是真正的方向。