我有一个包含以下内容的文本文件:
mariam amr sara john jessy salma mkkkkkaooooorllll
用户输入单词以搜索:例如:maram
正如你所看到的,它在我的文本文件中不存在..我想提出建议,类似于maram这个词是mariam
我使用了最常见的子序列,但它提供了mariam
和mkkkkkaooooorllll
,因为它们都包含最长的公共子序列" mar"
我想强制选择mariam 有什么想法吗?
提前致谢
/**
** Java Program to implement Longest Common Subsequence Algorithm
**/
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.IOException;
/** Class LongestCommonSubsequence **/
public class LongestCommonSubsequence
{
/** function lcs **/
public String lcs(String str1, String str2)
{
int l1 = str1.length();
int l2 = str2.length();
int[][] arr = new int[l1 + 1][l2 + 1];
for (int i = l1 - 1; i >= 0; i--)
{
for (int j = l2 - 1; j >= 0; j--)
{
if (str1.charAt(i) == str2.charAt(j))
arr[i][j] = arr[i + 1][j + 1] + 1;
else
arr[i][j] = Math.max(arr[i + 1][j], arr[i][j + 1]);
}
}
int i = 0, j = 0;
StringBuffer sb = new StringBuffer();
while (i < l1 && j < l2)
{
if (str1.charAt(i) == str2.charAt(j))
{
sb.append(str1.charAt(i));
i++;
j++;
}
else if (arr[i + 1][j] >= arr[i][j + 1])
i++;
else
j++;
}
return sb.toString();
//read text file, if a word contains sb.toString() , print it
}
/** Main Function **/
public static void main(String[] args) throws IOException
{
BufferedReader br = new BufferedReader(new InputStreamReader(System.in));
System.out.println("Longest Common Subsequence Algorithm Test\n");
System.out.println("\nEnter string 1");
String str1 = br.readLine();
System.out.println("\nEnter string 2");
String str2 = br.readLine();
LongestCommonSubsequence obj = new LongestCommonSubsequence();
String result = obj.lcs(str1, str2);
System.out.println("\nLongest Common Subsequence : "+ result);
}
}
答案 0 :(得分:2)
有一些像这样的模糊匹配技术--Apache Commons提供了一些很好的工具来比较两个字符串彼此之间的相似之处。查看Levenshtein Distance和Jaro Winkler Distance计算方法的javadoc。
使用Levenshtein Distance,得分越低,字符串越相似:
StringUtils.getLevenshteinDistance("frog", "fog") == 1
StringUtils.getLevenshteinDistance("fly", "ant") == 3
您还可以考虑为每个字符串计算Double Metaphone - 这样您就可以确定字符串&#39;声音的相似程度。说话的时候,即使它们不一定拼写相似。
回到您的问题 - 使用这些工具,如果用户的搜索字词在文本文件中任何字符串的特定阈值范围内,您就可以提出建议。