Question

我正在寻找一种工具，可以在大量的开放式文本响应中执行单词计数，更重要的是，短语计数。我还需要能够排除某些单词（a，the，and等）。

我知道有一些工具可以做到这一点：

 - http://www.mywritertools.com/default.asp
 - http://www.hermetic.ch/wfca/wfca.htm

以及一些可用的文本挖掘软件列表

 - http://en.wikipedia.org/wiki/List_of_text_mining_software
 - http://academic.csuohio.edu/kneuendorf/content/cpuca/qtap.htm
 - http://www.predictiveanalyticstoday.com/top-30-software-for-text-analysis-text-mining-text-analytics/

其中大部分要么a）花钱，要么b）提供比我需要的更多/不同的功能。我并不反对为适当的工具支付适度的金额（<100美元），但我希望先得到一些意见，以避免购买不能满足我需求的东西。

数据细节：
1）目前驻留在SQL数据库中，但可以转换为所需的任何格式（文本文件，excel，等等）
2）包含一个已打开的结束响应，以及与特定产品或产品类型相关的类别ID（例如，＆＃34; soda＆＃34;或＆＃34; pepsi＆＃34;）

需要
1）计算常用单词和短语的能力
2）能够排除单词列表（a，the，and等），以便＆＃34;洗车＆＃34;并且＆＃34;洗汽车＆＃34;将被视为相同的短语

很高兴有
1）能够根据根词进行匹配，以便＆＃34; 清洗汽车＆＃34;，＆＃34; 清洗汽车＆＃34; ＆＃34; 洗车汽车＆＃34;所有比赛
2）能够看到哪些单词出现在彼此附近，这样我就可以计算出洗车的次数＆＃34;，＆＃34;洗车＆＃34;和＆＃34;洗车＆＃34;显示为单一计数。

锦上添花
1）能够根据类别进行计数。没有什么大不了的，因为类别的数量相对较少，我可以单独运行，但这可能会在未来发生变化。

请分享任何建议/经验/建议！另外，我不反对编写自己的工具，但不想重新发明轮子。在没有特定工具的情况下，任何可能有助于这样做的图书馆（尤其是根词匹配）也会受到赞赏。

Answer 1

所以看起来这并不像其他任何人真正需要的东西，但为了以防万一，这就是我如何解决我的问题。

我使用了两种不同的工具：

密封词频高级（http://www.hermetic.ch/wfca/wfca.htm）
通过RapidMiner Marketplace

https://rapidminer.com/

RapidMiner文本处理工具非常适用于提取json，分割数据，提取相关数据，然后在我需要执行的实际处理之前标记/规范化和删除常用字。它还允许创建n-gram，然后进行包括n-gram的词频分析。非常酷的工具，有更多的可能性。

由于这个特定项目的要求只需要一个带有频率的短语列表（可以从RapidMiner字频分析的输出中提取出来但需要一些手工工作），我也使用了Hermetic单词频率高级（HWFA）工具，允许仅计数短语。

使用RapidMiner预处理文本（标记化，全部小写，删除常用词，词干）后，我接受了输出并运行它（HWFA）以获得我想要的结果。我很惊讶，与RapidMiner一样强大的是它不可能只用它们的频率返回短语，但是如果有可能（它可能是 - 工具非常强大），我的3天玩弄它没有发现如何。

RapidMiner Studio Basic和Text Mining扩展都是免费的。 HWFA是60美元（如果你问我，价格过高，但是捏了一把）。

希望有一天能够帮助别人！

用于单词/短语计数的最喜欢的工具

1 个答案: