Question

我有一个来自视频的录音文本（语音到文本），并希望将其拆分成句子。没有使用标点符号（例如，;：？！）。

如何使用Stanford coreNLP（解析器）将文档拆分成句子？
如果文本使用不同的语言（在我的情况下是德语），它会有所不同吗？

到目前为止我做了什么：

安装了CoreNLP并下载了德国模型
编码（使用Python包装但不应该有任何区别）

from stanfordcorenlp import StanfordCoreNLP

nlp = StanfordCoreNLP(r'/home/lukas/corenlp', lang='de', memory='4g')
text = "Ähm also und das war voll toll Ich dachte so hä wie kann das /n sein da haben so viele teilgenommen und gerade bei mir hat es geklappt später ist mir alles klar geworden "

properties={
        "annotators": "ssplit",
        "outputFormat": "xml",
        "pinelineLanguage": "de",
        "enforceRequirements": "false",
    }

output = nlp.annotate(text, properties=properties)
print(output)
nlp.close()

但我没有得到任何结果。

令牌器在德语中不可用（没有标记器 - ＆gt;单词融合到句子）会有所不同吗
有哪些替代方案/解决方法？

谢谢

如何使用斯坦福解析器将没有标点符号的德语文本拆分成句子？

0 个答案: