我正在尝试使用来自多个电子商务网站的数据来构建产品目录。目标是建立一个产品目录,其中使用跨多个来源的杠杆数据尽可能指定每个产品。
这似乎是一个非常复杂的任务,因为有时会出现错误信息,并且在某些情况下,唯一标识符拼写错误甚至不存在。
当前的方法是将提取的数据转换为我们的格式,然后将其加载到mysql数据库中。在此过程中,明显的重复项被删除,最终得到约250.000个数据集。
现在,由于成千上万的重复,我现在面临着如何进一步降低速度的问题,但由于某些信息可能不准确,我无法说清。
例如
ref_id | title | img | color_id | size | length | diameter | dial_id
这一个数据集可能不完整,甚至可能包含错误的值。
深入研究该主题,这似乎是使用进行深度学习的常见用例。张量流
我正在寻找对我有帮助的答案,以建立有关如何执行此操作的过程。张量流是正确的工具吗?我应该将所有数据集都写入数据库并保留记录吗?进程看起来如何,等等。