我正在研究一个研究项目,我需要一个NLP程序来检测许多不同情况下的句子。我被建议使用OpenNLP,我确信在阅读它的维基页面后使用它。因此,我使用OpenNLP来检测句子以及不属于句子的任何单词或短语(也称为句子片段)。
如果要重定向输入,OpenNLP接受.txt文件作为输入。如果要将.doc文件用作输入,则必须将其转换为.txt文件。我的问题就在这里开始。
我有许多不同格式的不同文件。如果它们包含任何文本,我想检测每个文件中的句子。因此,我开始将每个包含文件的潜在文本转换为.txt文件。转换过程并不完美。例如,如果一个句子太长(比一条线长),则转换工具将句子的两行作为分隔的句子。这个结果OpenNLP因为第一行末尾的eoln字符而将每一行产生为不同的句子。
我的问题是,无论如何,我可以参数化或配置OpenNLP来识别整个句子(第一行和第二行)吗?
答案 0 :(得分:1)
我建议你使用apache Tika进行不同文件的转换。 Apache Tika有AutoDetectParser,它可以检测不同的文件类型并提取其中的数据(如果需要,甚至是元数据),您可以将其保存到.txt文件中。
答案 1 :(得分:0)
尝试使用CoreNLP替换为空格的新行:nlp.stanford.edu:8080 / corenlp / process