在一个1500万字的语料库中查找一个单词的句子

时间:2013-08-26 18:31:12

标签: sql database sqlite corpus linguistics

我有一个1500万字的语料库,我想存储在数据库中。然后,我希望能够找到一个给定的单词,它在语料库中的上下文。例如,对于“朋友”这个词我可以选择以下内容,我也在每个“朋友”之前和之后选择五个单词:

... night i went to my FRIENDS house for a cup of tea ...
... what did you say my FRIENDS cat is sick and ...
... if you like my FRIENDS dad can pick you up ...

我如何最好地组织我的数据库以这种方式有效地选择给定的单词?我通常在需要数据库时使用sqlite,但在这种情况下可能还有其他更好的东西。

1 个答案:

答案 0 :(得分:1)

如果要在语料库中查找单词,则需要全文搜索功能。 SQLite确实提供了扩展功能,这些功能在here中解释。

全文搜索将返回与给定查询匹配的文档。您首先需要将语料库分解为单独的文档。通常,这是一项非常简单的任务 - 文档可能是电子邮件,客户服务记录,医生笔记,报告等等。但是,您没有描述您的案例中的文档。

我完全不熟悉SQLite的全文扩展。您可能会考虑其他数据库解决方案,如MySQL,它们也提供全文支持。