应用错误收集

在openNLP中使用Tokenizer

时间：2014-11-16 13:28:01

标签： nlp opennlp

我在R中以以下形式获得带有POS标签的文字：

id类型的开始结束功能
1字1 5 POS = NNP
2字7 8 POS = IN

.....

我想检索它标记的单词，例如，而不是列'type'，所有值都作为单词检索实际单词。我可以使用scan_tokenizer，但是当有“不是”这样的表格时，问题就出现了，这就是POS标签将其分解为“是”和“不是”，这很好但是scan_tokenizer没有标记化，只是将它保持在“不是”。任何人都可以帮我找回R已经标记并用于POS标签的单词吗？

由于

1 个答案:

答案 0 :(得分：1)

为什么不使用Illinois POS标签？它易于使用和可视化：

http://cogcomp.cs.illinois.edu/page/software_view/3

http://cogcomp.cs.illinois.edu/demo/pos/?id=4

在OpenNLP中使用带有参数的自定义要素生成器
在openNLP中使用Tokenizer
OpenNLP Tokenizer - 不兼容的类型错误？
Python OpenNLP Wrapper - Tokenizer在\ n停止
如何在OpenNLP中训练Tokenizer？
如何从shell脚本运行opennlp SentenceDetector和Tokenizer？
OpenNLP Tokenizer中的圆括号
使用OpenNLP训练NER时，opennlp-tools-1.6.0.dll中发生'System.NullReferenceException'
OpenNLP Tokenizer是否无法检测到属于同一词？
如何为OpenNLP的令牌生成器创建西班牙语模型？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？