压制叛徒'使用TreeTagger使用R库koRpus

时间:2014-06-14 08:33:52

标签: r nlp

我使用的是koRpus,它是NLP库TreeTagger的R包装器。 我正在处理法语并寻求lemmas。 问题:标记器阶段没有输出我想要的,存在问题 带撇号,分组为以下单词

e.g。它输出" l' oiseau"作为一个术语(而不是" oiseau")。

这是我目前的函数调用:

treetag("mytext.txt", treetagger="manual", lang="fr", 
        sentc.end = c(".", "!", "?", ";", ":","'"), 
        TT.options=list(path="TreeTagger", preset="fr"))

事先用例如文本预处理(删除')文本stringr并将结果字符串传递给treetag几乎不是一个选项,因为treetag只接受文件而不是字符串作为输入。

THX。

1 个答案:

答案 0 :(得分:0)

我和法国人有同样的问题。添加tokenizer选项" -f"为我工作。试试:

treetag("mytext.txt", treetagger="manual", lang="fr", 
    sentc.end = c(".", "!", "?", ";", ":","'"), 
    TT.options=list(path="TreeTagger", preset="fr",tknz.opts="-f"))