我有一张包含电影文章的表格。每篇文章都有一个标题,其中许多都有相同的短语。
我想对数据做一些分析,并提取这些常用短语及其使用情况。
这是一个简单的例子:
Title
------------------------------------------------
John cannot connect to Asian number
The backup service cannot connect to the client
Mary cannot connect her laptop to the network
根据这些数据,我希望能够提取以下内容:
Phrase Count
-------------------------------------------------- -------
cannot connect 3
cannot connect to 2
注意:此外,如果可能,我还想从结果中删除停用词。
我的数据库在MySQL中,我正在使用php进行编码。任何形式的帮助将不胜感激。