Question

我使用的是koRpus，它是NLP库TreeTagger的R包装器。我正在处理法语并寻求lemmas。问题：标记器阶段没有输出我想要的，存在问题带撇号，分组为以下单词

e.g。它输出＆＃34; l＆＃39; oiseau＆＃34;作为一个术语（而不是＆＃34; oiseau＆＃34;）。

这是我目前的函数调用：

treetag("mytext.txt", treetagger="manual", lang="fr", 
        sentc.end = c(".", "!", "?", ";", ":","'"), 
        TT.options=list(path="TreeTagger", preset="fr"))

事先用例如文本预处理（删除＆＃39;）文本stringr并将结果字符串传递给treetag几乎不是一个选项，因为treetag只接受文件而不是字符串作为输入。

THX。

Answer 1

我和法国人有同样的问题。添加tokenizer选项＆＃34; -f＆＃34;为我工作。试试：

treetag("mytext.txt", treetagger="manual", lang="fr", 
    sentc.end = c(".", "!", "?", ";", ":","'"), 
    TT.options=list(path="TreeTagger", preset="fr",tknz.opts="-f"))

压制叛徒＆＃39;使用TreeTagger使用R库koRpus

1 个答案: