使用strtok
可以单独获得para中的每个tocken。
我想单独捕获页面中的所有句子,以便单独处理它们。
一个解决方案是我保持循环并检查每个字符,如果是.
那么我认为句子已完成,因此存储在某些数据结构中。 I dont know which data structure is best suitable to store this
。数组还是矢量?
有没有其他更好的方法或某些c ++类可用来做到这一点?
更新
后来我想对句子中的否定采取行动。意味着考虑not
,no
,nope
这样的关键词。如果not
+ negative word
,则将其视为+ ve字。
答案 0 :(得分:3)
当您使用C ++时,存储字符串的最佳数据结构是std::string
类。在std::vector<std::string>
中存储多个字符串。顺便说一下,请勿使用strtok
,而是使用std::getline
。
但是当您正在进行文本操作以及国际文本操作时,您应该查看ICU库。在这种情况下,尤其是icu::BreakIterator::createSentenceInstance
。