我正在开发一个通过记录用户语音来检查语法错误的应用程序。我把声音转换成文本。现在,我想将文本拆分为句子。文本不包含任何标点符号。有人可以建议一下将文本分成句子吗?
答案 0 :(得分:0)
您需要处理正则表达式的不同情况。这是一个简单的例子:
过程1:
String text = "First text. Second text.";
String[] sentence = text.split("(?[a-z])\\.\\s+");
过程2:您还可以使用BreakIterator
BreakIterator iterator = BreakIterator.getSentenceInstance(Locale.US);
iterator.setText(text);
int start = iterator.first();
for (int end = iterator.next();
end != BreakIterator.DONE;
start = end, end = iterator.next()) {
}
输出:
第一个文本。
第二个文本。
您还可以检查语言处理工具。有关更多详细信息,请访问:LingPipe