从段落中提取句子

时间:2013-12-01 06:53:16

标签: c++ data-structures text-segmentation

使用strtok可以单独获得para中的每个tocken。

我想单独捕获页面中的所有句子,以便单独处理它们。

一个解决方案是我保持循环并检查每个字符,如果是.那么我认为句子已完成,因此存储在某些数据结构中。 I dont know which data structure is best suitable to store this。数组还是矢量?

有没有其他更好的方法或某些c ++类可用来做到这一点?

更新

后来我想对句子中的否定采取行动。意味着考虑notnonope这样的关键词。如果not + negative word,则将其视为+ ve字。

1 个答案:

答案 0 :(得分:3)

当您使用C ++时,存储字符串的最佳数据结构是std::string类。在std::vector<std::string>中存储多个字符串。顺便说一下,请勿使用strtok,而是使用std::getline

但是当您正在进行文本操作以及国际文本操作时,您应该查看ICU库。在这种情况下,尤其是icu::BreakIterator::createSentenceInstance