我有一个包含多个记录的表格,这些记录包含不同或相似或部分相似的文本。
例如:
记录1:堆栈溢出论坛非常有用。这最有助于开发人员和研究人员。 记录2:有几个非常有用的论坛可以帮助开发人员和研究人员。记录3:这个堆栈溢出论坛非常有用。这最有助于开发人员和研究人员。 记录4:不应考虑此文本。
考虑记录1和记录3,两者都是相同的,并且它被标记为重复,因为我正在为记录生成哈希码。
记录4包含完全不同的文字。
看看记录1和记录2,两者大致相似,含有几乎相似的词语。
比较两个记录时这两个记录中相似词的百分比更高。
所以我需要根据百分比提取这些类型的记录。
有没有与java相关的算法来执行此操作?
如果我得到一些指导,这将对我有用。
答案 0 :(得分:0)
您可以使用模糊字符串搜索来满足您的要求。 可以this帖子帮助你。 或者在DB中搜索,您也可以使用Hibernate搜索。见Hibernate Querying