opennlp无法识别twiiter输入

时间:2015-04-15 11:27:13

标签: twitter opennlp

我有一个包含twitter帖子的文件,我试图识别每行twitter帖子的结构,比如使用opennlp来获取名词,动词和东西。

它完美地工作,直到它到达包含#标签和链接的行

示例:

  

#birthday www.mybirthday / test / mypi.com

并给出错误com.cybozu.labs.langdetect.LangDetectException:文本中没有任何功能

当我在线旁边写一个句子时,它才起作用。任何想法如何处理?有超过一千行,几乎就像这个例子。

1 个答案:

答案 0 :(得分:0)

要使用POS标记器,您需要传递令牌,(以非专业术语表示单个单词)。该链接包含由斜杠/分隔的多个单词。链接本身与任何词性没有关联。 See here the list of tags and how they are assigned to a word。如果您希望它标识您的链接并为其指定单独的标记,请说LN要么提供您自己的培训数据here you will know how to create the training data,要么将链接中的字词分开作为单独的标记(您可以将其分开)通过斜杠/,问号?,等于符号=或&符号(&))来获取基础词然后使用POSTagger获取词性(对于散列标记也是类似的情况。)对于标记化,您也可以使用opennlp tokenizer,并根据您的特殊情况进行训练。 Go through the documentation,它会对你有很大帮助。