应用错误收集

大多数POS标记使用Penn Treebank标记集，该标记集由提议（Marcus，Santorini，＆amp; Ann，1993） Penn Treebank标签集包含36种不同的词性标签。

然而，这套不适合在推文上进行POS标记，因为缺乏常规拼写法，140个字符的限制（Gimpel，et al。，2011）。 Gimpel使用自己的标签集为Twitter实现了一个POS标签，其中包含一些特定的标签特征。这些功能确保了推文的标记一致性（Gimpel，et al。，2011），他们是列出如下：

Twitter拼写：用于检测@

提及，主题标签和URL名称（通常是大写的标记）：用户可以通过各种方式使用大写，因为在编写推文时没有任何协议

Metaph（语音规范化）：用于规范许多单词的替代拼写。例如。 {谢谢，感谢，thnx，...}代表“谢谢”这个词他们的标记符是条件随机字段（CRF）（Lafferty，McCallum，＆amp; Pereira，2001）

。 CRF是用于模式识别和机器学习的一类统计方法。 CRF与其他分类器之间的主要区别在于CRF还考虑了上下文，而其他分类器没有考虑上下文帐户。

CRF的这一衍生特征和标签集的增强改善了其适应性他们的标记器到twitter域，因此与之相比，他们获得了更好的准确性斯坦福树标记在他们的实验中（89。 39％与85.85％相比。

承认这种方法优于现有方法的事实，仍存在重大挑战仍然存在，即从非标准资本化到专有名词的错误分类，或从包括模糊符号在内的稀有代币到杂项类别的错误分类。（Gimpel，et al。，2011）

参考：Evaluation of NaturalLanguage Processing Techniques for Sentiment Analysis on Tweets

什么标记（和培训）最适合休闲交流;在网络服务器？

1 个答案:

Twitter拼写：用于检测@