实施
的最佳方式当在一小时的采访中被问到时,我们是否希望为算法编写c / c ++代码?
答案 0 :(得分:5)
请参阅this了解21行Python 2.5拼写纠正器和一些背景知识。
答案 1 :(得分:4)
对于字典,确实有一个优于trie的数据结构。尝试DAWG或CDAWG:http://en.wikipedia.org/wiki/Directed_acyclic_word_graph。只是为了使问题复杂化,我最喜欢的结构文章,Ciura和Deorowicz的“如何挤压词典”称它们为“最小的ADFA”。谷歌周围,你会发现很多竞争算法来构建这些野兽。祝你好运!
答案 2 :(得分:1)
另请查看Bloom filter。
答案 3 :(得分:1)
对于字典,我会使用std::map
(在.Net框架中调用Dictionary
)集合,其中单词为key,自定义对象(包含单词+定义的所有信息)为值。
对于词库,最好的结构是一棵树,每个节点都是一个部分,每个分支都有一个对象,其中包含有关你必须显示的内容的所有信息。
答案 4 :(得分:1)
在所有三种情况下,您都可以从单词集构造BK树。 BK-Trees允许您查找输入单词的给定编辑距离内的所有单词。请参阅BK-Trees上的m y blog post,了解它们的工作原理。
字典和拼写检查器或多或少相同 - 字典只需要提供定义和单词。对于同义词库,单词被聚类成“同义词” - 同义词集 - 所有元素都插入到BK树中。当有人在synset中查找一个单词时,您将显示所有其他单词作为替代。单词可以出现在多个同义词集中,因此您需要确保您的BK-Tree节点可以处理给定键的多个值。