如何通过在相邻字符之间添加空格将单词拆分为两个单词

时间:2016-02-13 05:32:00

标签: java spell-checking trie

我试图接受这个词: missspelling 并通过在相邻字符之间添加“”(空格)将单词拆分为两个单词,并希望得到单词: mislling spelling < / em>结果。任何指导都会有所帮助,尝试不同的代码,但没有看到结果。

适用于其他建议的代码仅供参考。 *请注意,注释掉的代码是我一直在搞乱的,试图获得正确的结果。

    /**
     * Returns possible suggestions for misspelled word
     * 
     * @param tree The Trie that will be checked
     * @param word The word in trie that is checked
     */
    public static void suggest(TrieNode tree, String word) {
        Set<String> result = new HashSet<>();
        System.out.println("Suggestions: ");
        // Remove a character
        for (int i = 0; i < word.length(); ++i)
            result.add(word.substring(0, i) + word.substring(i + 1));
        // Swap two consecutive characters
        for (int i = 0; i < word.length() - 1; ++i)
            result.add(word.substring(0, i) + word.substring(i + 1, i + 2) + word.substring(i, i + 1)
                    + word.substring(i + 2));
        // Replace a character with other
        for (int i = 0; i < word.length(); ++i)
            for (char c = 'a'; c <= 'z'; ++c)
                result.add(word.substring(0, i) + String.valueOf(c) + word.substring(i + 1));
        // Add a new character
        for (int i = 0; i <= word.length(); ++i)
            for (char c = 'a'; c <= 'z'; ++c)
                result.add(word.substring(0, i) + String.valueOf(c) + word.substring(i));
        // Split word into pair of words by adding a " " between adjacent pairs
        // Need help here
        for (int i = 0; i < word.length(); ++i)
            for (char c = ' '; c <= ' '; ++c)
                if (search(tree, word.substring(0, i)) && search(tree, word.substring(i)) == true)
                     result.add(word.substring(0, i) + String.valueOf(c) + word.substring(i));


        ArrayList<String> res = new ArrayList<>(result);
        int j = 0;
        for (int i = 0; i < result.size(); i++)
            if (search(tree, res.get(i))) {
                if (j == 0)
                    System.out.print("[");
                System.out.print(res.get(i) + ",");
                System.out.print("");
                j++;
            }
         System.out.print("]" + "\n");
    }

2 个答案:

答案 0 :(得分:1)

我编写了一段最小的,可运行的代码,如果在字典中找到两个单词,则可以分割单词。

以下是我的测试结果

miss spelling
apple

这是代码。重要的方法是splitWord方法。

package com.ggl.testing;

import java.util.ArrayList;
import java.util.List;

public class DoubleWord implements Runnable {

    public static void main(String[] args) {
        new DoubleWord().run();
    }

    @Override
    public void run() {
        Dictionary dictionary = new Dictionary();
        System.out.println(splitWord("missspelling", dictionary));
        System.out.println(splitWord("apple", dictionary));
    }

    public String splitWord(String word, Dictionary dictionary) {
        for (int index = 1; index < word.length(); index++) {
            String prefix = word.substring(0, index);
            if (dictionary.isWordInDictionary(prefix)) {
                String suffix = word.substring(index);
                if (dictionary.isWordInDictionary(suffix)) {
                    return prefix + " " + suffix;
                }
            }
        }

        return word;
    }

    public class Dictionary {
        private List<String> words;

        public Dictionary() {
            this.words = setWords();
        }

        public boolean isWordInDictionary(String word) {
            return words.contains(word);
        }

        private List<String> setWords() {
            List<String> words = new ArrayList<>();
            words.add("apple");
            words.add("miss");
            words.add("spelling");
            words.add("zebra");

            return words;
        }
    }

}

答案 1 :(得分:1)

先做几件事......

这条线是疯了:

for (char c = ' '; c <= ' '; ++c)

它将只迭代一次,相当于:

char c = ' ';

你试图通过交换字符然后通过替换字符来找到有效的单词来重新发明轮子:阅读Levenshtein distance,实现该算法,然后根据输入的Levenshtein距离对字典进行排序以找到&# 34;最佳匹配&#34;,应按最大Levenshtein距离进行过滤 - 也许3是一个很好的起点(测试你的代码,看看结果是否合理)。

您的TrieNode应该采用search()方法,而不是search()方法接受一个单词和一个单词,但这更多的是设计问题而且不是&#39这是你最大的问题。

现在,关于你的实际问题,尝试拆分输入很复杂,但是&#34;回答&#34;是:

遍历字母之间输入中的所有位置,并将每个&#34;半个&#34;通过与输入相同的过程,除了你不应该进行嵌套拆分,结合每一半的每个建议组合,然后返回所有唯一建议组合的集合

然而,这样做会产生一个非常大的&#34;建议的数量,因此不会扩展,所以你可能不应该这样做。