动态文本模式检测算法?

时间:2011-10-05 03:36:39

标签: algorithm text nlp machine-learning data-modeling

我想知道这种算法是否存在。我有一堆文本文档,如果存在模式,我想在所有这些文档中找到一个模式。请注意,我不想尝试对文档进行分类,只要在某些文档中存在,就可以找到一个模式。谢谢!

1 个答案:

答案 0 :(得分:1)

现在的问题有点模糊......你需要知道你在寻找什么才能找到它。
一些可能有用的想法 -

  1. 分别为n = 1,2,3,4获取每个文档的n-gram计数,然后比较文档中每个ngram的频率。这可以帮助您找到所有文档中常见的短语。
  2. 获取词性标注器以将所有文档转换为POS标记流,然后执行与1
  3. 相同的操作
  4. 使用PCFG软件(如Stanford Parser)获取所有文档中所有句子的解析树,然后尝试确定句子结构在不同文档中的分布有多相似。