我有一个包含twitter帖子的文件,我试图识别每行twitter帖子的结构,比如使用opennlp来获取名词,动词和东西。
它完美地工作,直到它到达包含#标签和链接的行
示例:
#birthday www.mybirthday / test / mypi.com
并给出错误com.cybozu.labs.langdetect.LangDetectException:文本中没有任何功能
当我在线旁边写一个句子时,它才起作用。任何想法如何处理?有超过一千行,几乎就像这个例子。
答案 0 :(得分:0)
要使用POS标记器,您需要传递令牌,(以非专业术语表示单个单词)。该链接包含由斜杠/
分隔的多个单词。链接本身与任何词性没有关联。 See here the list of tags and how they are assigned to a word。如果您希望它标识您的链接并为其指定单独的标记,请说LN
要么提供您自己的培训数据here you will know how to create the training data,要么将链接中的字词分开作为单独的标记(您可以将其分开)通过斜杠/
,问号?
,等于符号=
或&符号(&
))来获取基础词然后使用POSTagger获取词性(对于散列标记也是类似的情况。)对于标记化,您也可以使用opennlp tokenizer,并根据您的特殊情况进行训练。 Go through the documentation,它会对你有很大帮助。