高效的自然语言数据结构,持久性和查询

时间:2010-06-21 15:40:37

标签: java database algorithm data-structures

要在语言学习Web应用程序中使用,您是否了解数据结构和底层数据库架构/布局,以便为不同的自然语言高效存储,处理和查询句子,动词,名词等?例如,我想将每个动词存储一次,并将句子链接到动词对象等。

我遇到了concrete syntax trees,我正在考虑使用一个抽象的Node类,并从中派生出Noun类等。语法树结构是否过于严格?

我意识到这是一个相当广泛的问题,我不希望你做我的'家庭作业',但如果你能指出我所知道的任何资源,这可能有助于我开始,我将不胜感激。

谢谢

马亭

1 个答案:

答案 0 :(得分:2)

你的例子在自然语言/句子操作方面看起来非常扎实。

关于其他选项..对于文本搜索/存储,您可以查看Patricia tree。在Google code上用Java实现了它。

另外,您是否考虑使用现有解决方案之一,例如HunspellLuceneSphinx