他们通常如何存储和更新语言模型(例如N-gram模型)?什么样的结构是将这些模型存储在数据库中的最有效方法?
答案 0 :(得分:4)
语言模型中最常见的数据结构是tries和hash tables。您可以在他自己的语言模型工具包Kenneth Heafield's paper上查看KenLM,以获取有关他自己的软件和相关软件包使用的数据结构的更多详细信息。
答案 1 :(得分:1)
对于语音识别和一些其他应用,将n-gram模型表示为有限状态换能器是常见的。我不知道FST是最有效的存储结构,但有一种非常简单(和数学上清晰)的方式将它们与语音识别模型的其他部分相结合。
请参阅OpenFST库和OpenGRM工具(构建于OpenFST之上),以进行语言模型构建,修剪,评估等。Mohri et al., 2002是一个很好的介绍,以及其他论文链接自OpenFST和OpenGRM网站。