标签: text duplicates correlation cjk
最近,我已经抓取了很多出价文件(中文)并保存在数据库中。由于出价文件来自不同的网站,因此很多文件都是重复的(例如Google要购买新的 搜索引擎,他让两个代理网站为他发布了此消息。当我 抓取这两个代理网站,我收到重复的出价消息)。现在,我对此工作没有解决方案,因为相同的信息位于不同的结构中,因为不同的代理网站使用不同的前端程序。有人可以告诉我一种解决方案,该方案如何比较每个出价文本的相关性并删除重复的出价文本吗? Elasticsearch对我有用吗?