应用错误收集

我会推荐两个相对简单的措施，可以帮助您将单词序列分类为句子/非句子。不幸的是，我不知道SharpNLP将如何处理。 Java，Python和C ++中存在更完整的工具包（LingPipe，Stanford CoreNLP，GATE，NLTK，OpenGRM，......）

语言模型概率：在句子的开头/结尾处使用开始和结束标记的句子训练语言模型。根据该语言模型计算目标序列的概率。语法和/或语义敏感的单词序列将比随机单词序列得分高得多。这种方法应该与标准的n-gram模型，判别条件概率模型或几乎任何其他语言建模方法一起使用。但绝对要从基本的n-gram模型开始。

解析树概率：类似地，您可以测量恢复的选区结构的内部概率（例如，通过概率上下文无关语法解析）。更高的语法序列（即，更可能是完整的句子）将反映在更高的内部概率中。如果按照序列长度进行标准化，则可能会得到更好的结果（同样可能也适用于语言建模方法）。

我在推文上看到了初步（但未发表）的结果，似乎表明归一化概率的双峰分布 - 被人类注释者判断为更具语法性的推文通常落在更高的峰值之内，而那些被认为语法较少的推文聚集成较低的一个。但我不知道这些结果在更大或更正式的研究中会有多好。