我正在为一个客户建立一个网站,它基本上会从不同来源重新聚合很多来源。
我目前的问题是这些来源可能在其中重复了内容,我需要找到一个解决方案来比较在网站上发布之前收到的数据。
我的问题是,即使重复内容,某些内容可能会因源而略有不同。 实施例:
来源1 :
“开始你的IT职业生涯”
来源2 :
“开始你的信息技术职业”
来源3 :
“开始你的信息技术职业”
所以我的问题是:有没有办法比较这些文本,并在内容相似的情况下获得警告(并且通过类似的,例如,我的意思是类似的,但不一定相同)到现有的内容网站?
弹性搜索可以帮助我吗? 我需要指示,其实,实际上:))
由于