什么标记(和培训)最适合休闲交流;在网络服务器?

时间:2012-07-23 12:25:11

标签: python nltk

我想标记推文,文本(来自手机)和电子邮件。我发现了这些特定于这些通信的问题:

  • 现代语言,充满动词;一些语料库看起来非常糟糕的动词
  • 简短的标点符号和句子片段
  • 新词“ Jelly Bean 版本”或“ BYOD 运动”或“yout bank bal

我想要一个对这种“不那么雄辩”的文本很健壮的标记器,并且对于实时Web服务器来说仍然是快速且资源有效的。

哪种标记符(和语料库)是最佳选择?

1 个答案:

答案 0 :(得分:0)

大多数POS标记使用Penn Treebank标记集,该标记集由提议 (Marcus,Santorini,& Ann,1993) Penn Treebank标签集包含36种不同的词性标签。

然而,这套不适合在推文上进行POS标记,因为缺乏 常规拼写法,140个字符的限制(Gimpel,et al。,2011) 。 Gimpel使用自己的标签集为Twitter实现了一个POS标签,其中包含一些特定的标签 特征。这些功能确保了推文的标记一致性 (Gimpel,et al。,2011),他们是 列出如下:

Twitter拼写:用于检测@

提及,主题标签和URL名称(通常是大写的标记):用户可以通过各种方式使用大写,因为在编写推文时没有任何协议

Metaph(语音规范化):用于规范许多单词的替代拼写。例如。 {谢谢, 感谢,thnx,...}代表“谢谢”这个词 他们的标记符是条件随机字段(CRF) (Lafferty,McCallum,& Pereira,2001)

。 CRF是用于模式识别和机器学习的一类统计方法。 CRF与其他分类器之间的主要区别在于CRF还考虑了上下文,而其他分类器没有考虑上下文 帐户。

CRF的这一衍生特征和标签集的增强改善了其适应性 他们的标记器到twitter域,因此与之相比,他们获得了更好的准确性 斯坦福树标记在他们的实验中(89。 39%与85.85%相比。

承认这种方法优于现有方法的事实,仍存在重大挑战 仍然存在,即从非标准资本化到专有名词的错误分类,或从包括模糊符号在内的稀有代币到杂项类别的错误分类。 (Gimpel,et al。,2011)

参考:Evaluation of NaturalLanguage Processing Techniques for Sentiment Analysis on Tweets