Question

我正在尝试使用来自多个电子商务网站的数据来构建产品目录。目标是建立一个产品目录，其中使用跨多个来源的杠杆数据尽可能指定每个产品。

这似乎是一个非常复杂的任务，因为有时会出现错误信息，并且在某些情况下，唯一标识符拼写错误甚至不存在。

当前的方法是将提取的数据转换为我们的格式，然后将其加载到mysql数据库中。在此过程中，明显的重复项被删除，最终得到约250.000个数据集。

现在，由于成千上万的重复，我现在面临着如何进一步降低速度的问题，但由于某些信息可能不准确，我无法说清。

例如

ref_id | title | img | color_id | size | length | diameter | dial_id

这一个数据集可能不完整，甚至可能包含错误的值。

深入研究该主题，这似乎是使用进行深度学习的常见用例。张量流

我正在寻找对我有帮助的答案，以建立有关如何执行此操作的过程。张量流是正确的工具吗？我应该将所有数据集都写入数据库并保留记录吗？进程看起来如何，等等。