我有一个新问题。我有一个包含各种文本的列的数据库,有什么方法可以让SQL告诉我这些字段中使用的10个最常用的单词是什么?举个例子:
1我今天回家有点晚了。
2火车迟到了。
3今天的火车时刻表是什么?
4雪现在真的很糟糕。
最佳输出将是:
是:3 晚:2 火车:2 今天:2
如果使用SQL无法做到这一点,您还建议我研究一下以获取此信息?
答案 0 :(得分:3)
这在技术上可能在SQL中可行,但是当您的数据库中有更多行时,它会很痛苦而且非常慢。
您所描述的问题是索引引擎的完美用例,例如Lucene(我以此为例,因为您的问题在编辑之前首先包含标记'java')。
答案 1 :(得分:0)
一种选择是使用表值拆分函数,将每个单词作为一行返回;算他们;按降序对它们进行排序