twitter - opennlp无法识别twiiter输入

opennlp无法识别twiiter输入

时间：2015-04-15 11:27:13

标签： twitter opennlp

我有一个包含twitter帖子的文件，我试图识别每行twitter帖子的结构，比如使用opennlp来获取名词，动词和东西。

它完美地工作，直到它到达包含＃标签和链接的行

示例：

#birthday www.mybirthday / test / mypi.com

并给出错误com.cybozu.labs.langdetect.LangDetectException：文本中没有任何功能

当我在线旁边写一个句子时，它才起作用。任何想法如何处理？有超过一千行，几乎就像这个例子。

1 个答案:

答案 0 :(得分：0)

要使用POS标记器，您需要传递令牌，（以非专业术语表示单个单词）。该链接包含由斜杠/分隔的多个单词。链接本身与任何词性没有关联。 See here the list of tags and how they are assigned to a word。如果您希望它标识您的链接并为其指定单独的标记，请说LN要么提供您自己的培训数据here you will know how to create the training data，要么将链接中的字词分开作为单独的标记（您可以将其分开）通过斜杠/，问号?，等于符号=或＆符号（&））来获取基础词然后使用POSTagger获取词性（对于散列标记也是类似的情况。）对于标记化，您也可以使用opennlp tokenizer，并根据您的特殊情况进行训练。 Go through the documentation，它会对你有很大帮助。