分析结构和容错性未知的表

时间:2018-11-08 09:34:36

标签: algorithm data-analysis tabular

我想分析具有相似数据的表,这些表的结构不同,并且标题也可能略有不同。

要从汇总表中收集所有数据,我会遇到几个问题。

第1步:我寻找标题关键字。无法搜索“ cars == cars”,因为标题可能显示为“ car”,“ Car”或“ Cars”。也有可能单词中存在拼写错误。因此,遍历所有可能性也可能导致错误。 当我寻找解决方案时,我发现了模糊逻辑,但是我对其他方法表示感谢。

第2步:我在表中找到了所需的关键字,但是我如何知道相关数据的放置位置?它可以在它下面,但也可以在它旁边。有没有办法获取有关表的一般结构的信息?

1 个答案:

答案 0 :(得分:0)

第a步(第1部分)-天真的实现是字典距离(如您要处理的拼写错误)

步骤a(第2部分)-使用同义词数据库/同义词库查找名称相似的列

步骤b(第1部分)-数据与标头对齐的方式相同-因此,如果标头垂直对齐,则数据也将对齐

步骤b(第2部分)-相似的数据将具有相似的数据类型(原始字符串,数字,邮政编码),通过向右和向下检查,您可以检测出哪个才是真正的方向。