如何使用斯坦福解析器将没有标点符号的德语文本拆分成句子?

时间:2018-06-06 15:41:18

标签: parsing stanford-nlp multilingual punctuation sentence

我有一个来自视频的录音文本(语音到文本),并希望将其拆分成句子。没有使用标点符号(例如,;:?!)。

  1. 如何使用Stanford coreNLP(解析器)将文档拆分成句子?
  2. 如果文本使用不同的语言(在我的情况下是德语),它会有所不同吗?
  3. 到目前为止我做了什么:

    1. 安装了CoreNLP并下载了德国模型
    2. 编码(使用Python包装但不应该有任何区别)
    3. from stanfordcorenlp import StanfordCoreNLP
      
      nlp = StanfordCoreNLP(r'/home/lukas/corenlp', lang='de', memory='4g')
      text = "Ähm also und das war voll toll Ich dachte so hä wie kann das /n sein da haben so viele teilgenommen und gerade bei mir hat es geklappt später ist mir alles klar geworden "
      
      properties={
              "annotators": "ssplit",
              "outputFormat": "xml",
              "pinelineLanguage": "de",
              "enforceRequirements": "false",
          }
      
      output = nlp.annotate(text, properties=properties)
      print(output)
      nlp.close()
      

      但我没有得到任何结果。

      • 令牌器在德语中不可用(没有标记器 - >单词融合到句子)会有所不同吗
      • 有哪些替代方案/解决方法?

      谢谢

0 个答案:

没有答案