句子分析和标记化算法

时间:2010-05-28 00:27:02

标签: c# nlp

我需要分析一个文档并编译统计数据,以确定每个单词序列的使用次数(因此分析不是单个单词而是单个循环单词的分析)。我读到压缩算法做了类似于我想要的事情 - 创建文本块的字典,其中一条信息报告其频率。 它应该类似于http://www.codeproject.com/KB/recipes/Patterns.aspx 你有用C#写的东西吗?

1 个答案:

答案 0 :(得分:1)

这很容易实现。

  1. 使用Split(字符串类的成员函数)将字符串拆分为单词。 (您可以使用codeproject url中的分隔符)。

  2. forloop枚举所有n-gram输出并使用Dictionary<string, int>来计算。