我需要分析一个文档并编译统计数据,以确定每个单词序列的使用次数(因此分析不是单个单词而是单个循环单词的分析)。我读到压缩算法做了类似于我想要的事情 - 创建文本块的字典,其中一条信息报告其频率。 它应该类似于http://www.codeproject.com/KB/recipes/Patterns.aspx 你有用C#写的东西吗?
答案 0 :(得分:1)
这很容易实现。
使用Split(字符串类的成员函数)将字符串拆分为单词。 (您可以使用codeproject url中的分隔符)。
forloop枚举所有n-gram输出并使用Dictionary<string, int>
来计算。