计算表列中的单词出现次数

时间:2009-07-07 21:08:51

标签: mysql count word

我有一个带varchar(255)字段的表。我想(通过查询,函数或SP)获取此表中一组行中每个单词的出现次数。

如果这些字段有2行:

"I like to eat bananas"
"I don't like to eat like a monkey"

我想要

    word | count()
    ---------------
    like  3
    eat   2
    to    2
    i     2
    a     1

有什么想法吗?我正在使用MySQL 5.2。

5 个答案:

答案 0 :(得分:3)

@Elad Meidar,我喜欢你的问题,我找到了解决方案:

SELECT SUM(total_count) as total, value
FROM (

SELECT count(*) AS total_count, REPLACE(REPLACE(REPLACE(x.value,'?',''),'.',''),'!','') as value
FROM (
SELECT SUBSTRING_INDEX(SUBSTRING_INDEX(t.sentence, ' ', n.n), ' ', -1) value
  FROM table_name t CROSS JOIN 
(
   SELECT a.N + b.N * 10 + 1 n
     FROM 
    (SELECT 0 AS N UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9) a
   ,(SELECT 0 AS N UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9) b
    ORDER BY n
) n
 WHERE n.n <= 1 + (LENGTH(t.sentence) - LENGTH(REPLACE(t.sentence, ' ', '')))
 ORDER BY value

) AS x
GROUP BY x.value

) AS y
GROUP BY value

以下是完整的工作小提琴:http://sqlfiddle.com/#!2/17481a/1

首先,我们通过@peterm进行查询以提取所有单词here(如果要自定义处理的单词总数,请按照他的说明操作)。然后我们将其转换为子查询,然后我们COUNTGROUP BY每个单词的值,然后在GROUP BY之上进行另一个查询,而不是分组的单词可能存在迹象。即:你好=你好!使用REPLACE

答案 1 :(得分:1)

我建议不要在SQL中执行此操作。你正在为数据库加载一些不是最好的东西。选择一组行并在应用程序端进行频率计算将更容易实现,将更快地工作并且将以较少的问题/头痛进行维护。

答案 2 :(得分:0)

我认为你应该像索引一样使用额外的表格。 无论何时创建,更新或删除原始表中的行,都应更新索引表。该索引表应该包含列:word和出现次数。

答案 3 :(得分:0)

你可以尝试这种变态的方式:

SELECT 
(LENGTH(field) - LENGTH(REPLACE(field, 'word', ''))) / LENGTH('word') AS `count`
ORDER BY `count` DESC

此查询可能非常慢。而且,它看起来很丑陋。

答案 4 :(得分:-1)

如果所有单词都在每行的一个字段中,我认为你试图用SQL做太多。我建议您从数据库中获取文本字段后,使用您的应用程序进行任何文本处理/计数。