应用错误收集

最近，我已经抓取了很多出价文件（中文）并保存在数据库中。由于出价文件来自不同的网站，因此很多文件都是重复的（例如Google要购买新的搜索引擎，他让两个代理网站为他发布了此消息。当我抓取这两个代理网站，我收到重复的出价消息）。现在，我对此工作没有解决方案，因为相同的信息位于不同的结构中，因为不同的代理网站使用不同的前端程序。有人可以告诉我一种解决方案，该方案如何比较每个出价文本的相关性并删除重复的出价文本吗？ Elasticsearch对我有用吗？

如何对出价文件进行重复数据删除？

0 个答案: