我使用的是koRpus,它是NLP库TreeTagger的R包装器。 我正在处理法语并寻求lemmas。 问题:标记器阶段没有输出我想要的,存在问题 带撇号,分组为以下单词
e.g。它输出" l' oiseau"作为一个术语(而不是" oiseau")。
这是我目前的函数调用:
treetag("mytext.txt", treetagger="manual", lang="fr",
sentc.end = c(".", "!", "?", ";", ":","'"),
TT.options=list(path="TreeTagger", preset="fr"))
事先用例如文本预处理(删除')文本stringr并将结果字符串传递给treetag几乎不是一个选项,因为treetag只接受文件而不是字符串作为输入。
THX。
答案 0 :(得分:0)
我和法国人有同样的问题。添加tokenizer选项" -f"为我工作。试试:
treetag("mytext.txt", treetagger="manual", lang="fr",
sentc.end = c(".", "!", "?", ";", ":","'"),
TT.options=list(path="TreeTagger", preset="fr",tknz.opts="-f"))