根据这篇文章的标题,我想知道是否有可能使用StanfordCoreNLP来获取文本的选区解析,同时使用预先存在的,可能是外部提供的文本标记化。我希望用法语写的文本来做这件事。我想如果可能的话,只有包含描述的文件才有必要,因为可以从这个文件重建文本的版本。 我想如果有人在java中编程,直接使用java类可能是可能的,但由于我不太了解java,我想知道是否可以使用命令行指令。 有没有人知道这样的事情?
我通过Google搜索搜索了这个问题的答案,并浏览了StanfordCoreNLP网站(https://nlp.stanford.edu/),尤其是此页面https://nlp.stanford.edu/software/,但没找到我要找的内容。在寻找获取软件信息的方法时,我发现我们被告知在StackOverflow上提问。
现在我可以准确地提出我的问题:有没有办法将StanfordCoreNLP与命令行界面一起使用,以便在用法语写的文本上获得选区解析信息,同时强制StanfordCoreNLP尊重预先存在的输入这个文本的标记化?如果答案是肯定的,我可以在哪里记录这种方式?
修改 示例: 我将举例说明用英文写的文字:
原始文字: “约翰去旅行了;这很不错。 »
标记文字: “约翰去旅行了;这很不错。 » (这里,与原始文本的不同之处在于标点符号与它们各自的前一个词分开)
选区解析文本: «(ROOT(S(NP(NNP John))(VP(VBD去)(PP(IN on)(NP(NP(DT a)(NN trip))(:;)(SBAR(WHNP(WDT)) (S(VP(VBD)(ADJP(RB完全)(JJ不错)))))))))(。)))»
正如您所看到的,选区解析可以看作是标记化步骤结果的注释。我目前知道如何使用StanfordCoreNLP套件通过提供原始文本来计算选区解析信息以及其他类型的信息,但我想,为了实现这一点,StanfordCoreNLP套件执行自己的标记化步骤。
我想知道是否有办法强制StanfordCoreNLP套件使用/尊重法语文本的预定义标记化。
编辑2:
感谢您的回答。顺便说一下,这让我学会了如何在StanfordCoreNLP的管道流程中使用命令行上的“{annotator_name}。{option_name}”格式来参数化使用的不同注释器;所以下次我可以在浏览时更好地理解StanfordCoreNLP的文档。
答案 0 :(得分:1)
使用tokenize.whitespace
选项,并提供由空格标记的文本。该选项只会创建由空格分隔的单词。