nlp - OpenNLP SentenceDetector不识别整个句子

我正在研究一个研究项目，我需要一个NLP程序来检测许多不同情况下的句子。我被建议使用OpenNLP，我确信在阅读它的维基页面后使用它。因此，我使用OpenNLP来检测句子以及不属于句子的任何单词或短语（也称为句子片段）。

如果要重定向输入，OpenNLP接受.txt文件作为输入。如果要将.doc文件用作输入，则必须将其转换为.txt文件。我的问题就在这里开始。

我有许多不同格式的不同文件。如果它们包含任何文本，我想检测每个文件中的句子。因此，我开始将每个包含文件的潜在文本转换为.txt文件。转换过程并不完美。例如，如果一个句子太长（比一条线长），则转换工具将句子的两行作为分隔的句子。这个结果OpenNLP因为第一行末尾的eoln字符而将每一行产生为不同的句子。

我的问题是，无论如何，我可以参数化或配置OpenNLP来识别整个句子（第一行和第二行）吗？

OpenNLP SentenceDetector不识别整个句子

2 个答案: