用于单词/短语计数的最喜欢的工具

时间:2015-02-13 19:22:18

标签: full-text-search text-mining data-analysis word-count text-analysis

我正在寻找一种工具,可以在大量的开放式文本响应中执行单词计数,更重要的是,短语计数。我还需要能够排除某些单词(a,the,and等)。

我知道有一些工具可以做到这一点:

 - http://www.mywritertools.com/default.asp
 - http://www.hermetic.ch/wfca/wfca.htm

以及一些可用的文本挖掘软件列表

 - http://en.wikipedia.org/wiki/List_of_text_mining_software
 - http://academic.csuohio.edu/kneuendorf/content/cpuca/qtap.htm
 - http://www.predictiveanalyticstoday.com/top-30-software-for-text-analysis-text-mining-text-analytics/

其中大部分要么a)花钱,要么b)提供比我需要的更多/不同的功能。我并不反对为适当的工具支付适度的金额(<100美元),但我希望先得到一些意见,以避免购买不能满足我需求的东西。

数据细节:
1)目前驻留在SQL数据库中,但可以转换为所需的任何格式(文本文件,excel,等等)
2)包含一个已打开的结束响应,以及与特定产品或产品类型相关的类别ID(例如,&#34; soda&#34;或&#34; pepsi&#34;)

需要
1)计算常用单词和短语的能力
2)能够排除单词列表(a,the,and等),以便&#34;洗车&#34;并且&#34;洗 汽车&#34;将被视为相同的短语

很高兴有
1)能够根据根词进行匹配,以便&#34; 清洗汽车&#34;,&#34; 清洗汽车&#34; &#34; 洗车汽车&#34;所有比赛
2)能够看到哪些单词出现在彼此附近,这样我就可以计算出洗车的次数&#34;,&#34;洗车&#34;和&#34;洗车&#34;显示为单一计数。

锦上添花
1)能够根据类别进行计数。没有什么大不了的,因为类别的数量相对较少,我可以单独运行,但这可能会在未来发生变化。

请分享任何建议/经验/建议!另外,我不反对编写自己的工具,但不想重新发明轮子。在没有特定工具的情况下,任何可能有助于这样做的图书馆(尤其是根词匹配)也会受到赞赏。

1 个答案:

答案 0 :(得分:0)

所以看起来这并不像其他任何人真正需要的东西,但为了以防万一,这就是我如何解决我的问题。

我使用了两种不同的工具:

RapidMiner文本处理工具非常适用于提取json,分割数据,提取相关数据,然后在我需要执行的实际处理之前标记/规范化和删除常用字。它还允许创建n-gram,然后进行包括n-gram的词频分析。非常酷的工具,有更多的可能性。

由于这个特定项目的要求只需要一个带有频率的短语列表(可以从RapidMiner字频分析的输出中提取出来但需要一些手工工作),我也使用了Hermetic单词频率高级(HWFA)工具,允许仅计数短语。

使用RapidMiner预处理文本(标记化,全部小写,删除常用词,词干)后,我接受了输出并运行它(HWFA)以获得我想要的结果。我很惊讶,与RapidMiner一样强大的是它不可能只用它们的频率返回短语,但是如果有可能(它可能是 - 工具非常强大),我的3天玩弄它没有发现如何。

RapidMiner Studio Basic和Text Mining扩展都是免费的。 HWFA是60美元(如果你问我,价格过高,但是捏了一把)。

希望有一天能够帮助别人!