在字符串中搜索建议

时间:2015-07-01 10:51:35

标签: java search-suggestion

我有一个包含以下内容的文本文件: mariam amr sara john jessy salma mkkkkkaooooorllll

用户输入单词以搜索:例如:maram

正如你所看到的,它在我的文本文件中不存在..我想提出建议,类似于maram这个词是mariam

我使用了最常见的子序列,但它提供了mariammkkkkkaooooorllll,因为它们都包含最长的公共子序列" mar"

我想强制选择mariam 有什么想法吗?

提前致谢

/**
 ** Java Program to implement Longest Common Subsequence Algorithm
 **/

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.IOException;

   /** Class  LongestCommonSubsequence **/
    public class  LongestCommonSubsequence
    {    
   /** function lcs **/
    public String lcs(String str1, String str2)
    {
    int l1 = str1.length();
    int l2 = str2.length();

    int[][] arr = new int[l1 + 1][l2 + 1];

    for (int i = l1 - 1; i >= 0; i--)
    {
        for (int j = l2 - 1; j >= 0; j--)
        {
            if (str1.charAt(i) == str2.charAt(j))
                arr[i][j] = arr[i + 1][j + 1] + 1;
            else 
                arr[i][j] = Math.max(arr[i + 1][j], arr[i][j + 1]);
        }
    }

    int i = 0, j = 0;
    StringBuffer sb = new StringBuffer();
    while (i < l1 && j < l2) 
    {
        if (str1.charAt(i) == str2.charAt(j)) 
        {
            sb.append(str1.charAt(i));
            i++;
            j++;
        }
        else if (arr[i + 1][j] >= arr[i][j + 1]) 
            i++;
        else
            j++;
    }


    return sb.toString(); 
   //read text file, if a word contains sb.toString() , print it


}

/** Main Function **/
public static void main(String[] args) throws IOException
{    
    BufferedReader br = new BufferedReader(new InputStreamReader(System.in));
    System.out.println("Longest Common Subsequence Algorithm Test\n");

    System.out.println("\nEnter string 1");
    String str1 = br.readLine();

    System.out.println("\nEnter string 2");
    String str2 = br.readLine();

    LongestCommonSubsequence obj = new LongestCommonSubsequence(); 
    String result = obj.lcs(str1, str2);

    System.out.println("\nLongest Common Subsequence : "+ result);
}

}

1 个答案:

答案 0 :(得分:2)

有一些像这样的模糊匹配技术--Apache Commons提供了一些很好的工具来比较两个字符串彼此之间的相似之处。查看Levenshtein DistanceJaro Winkler Distance计算方法的javadoc。

使用Levenshtein Distance,得分越低,字符串越相似:

StringUtils.getLevenshteinDistance("frog", "fog") == 1
StringUtils.getLevenshteinDistance("fly", "ant") == 3

您还可以考虑为每个字符串计算Double Metaphone - 这样您就可以确定字符串&#39;声音的相似程度。说话的时候,即使它们不一定拼写相似。

回到您的问题 - 使用这些工具,如果用户的搜索字词在文本文件中任何字符串的特定阈值范围内,您就可以提出建议。