将文本块拆分为单独的部分

时间:2017-09-20 20:21:34

标签: r regex

如果这很明显,那么R的新手如此苛求 给定一个包含文本样本块的文本文档,如下所示:

  

代理Kermit:先生,为所有人提供良好的教育   Utoppia的孩子是我们最重要的职责之一   各国议员。我们都认识到这一点。早上我们开始了   辩论中学选拔的未来就是为什么   感情如此之高,为什么它如此紧密地战斗。

     

但我们的责任并不止于大会的大门。   为了实用起见,我们委托了日常政策   个别委员会的责任。正如Fozzy代表所说的那样   说,委员会是各州的代理人。最终它应该   按照它说的去做。所以毫无疑问,降压会停止   与我们,美国,确保我们的代理人,委员会,有   我们所完成的任务所需的技能,力量和经验   分配给它。如果委员会不是正确的任务   未来,特别是如果这是对我们岛屿至关重要的任务,   那么我们有责任处理这个问题。我们必须记住,有   这里没有等级制度,没有权力在这里谨慎雇佣或解雇   部件。如果一个委员会的工作做得不对,但它没有采取行动   down,我们必须管理的唯一工具是no的动作   信心。

     Fozzy的副手也是类似的,他只是说改变是一个   灾难的秘诀。在十二月之后的国家的步骤   辩论他告诉我们乌托邦会懊恼 -          法警:代理Fozzy。

     Fozzy代表:大会的步骤从未说过   辩论结束后。在辩论之后我没有说过这样的话。   我想你需要检查一下你的事实。          法警:通过主席,          Kermit代理人:先生,我在媒体上重复一遍。

我想将每个发言者的声明分成他们自己的单独文件。鉴于发言人的头衔(在本例中是副手或者Baliff),角色':'也可能出现在文本块中,我有什么选择呢?

1 个答案:

答案 0 :(得分:1)

不确定句子在这里打破......只是一次尝试。

正则表达式:

    (^|[\W\S]\s*)(([A-Z][a-z]+\s?)+:)

的更换:

    $1\n\n$2

输出:

代理Kermit:主席先生,为所有Utoppia儿童提供良好教育是我们作为各国议员的最重要职责之一。我们都认识到这一点。上午我们开始讨论中学教育选择的未来,这就是感情如此高涨的原因,以及为什么会如此激烈地进行。 但我们的责任并不止于大会的大门。为了实用起见,我们将日常政策责任委托给各个委员会。正如Fozzy法官所说,委员会是美国的代理人。最终它应该按照它所说的去做。因此,毫无疑问,我们各国应该停止这种做法,以确保我们的代理人委员会拥有我们分配给它的任务所需的技能,力量和经验。如果委员会不是未来任务的合适人选,特别是如果这是对我们岛屿至关重要的任务,那么我们有责任处理这个问题。我们必须记住,这里没有等级制度,没有权力在大会中谨慎雇用或开火。如果一个委员会的工作做得不对,但它没有下台,我们必须管理的唯一工具是不信任的议案。 Fozzy的副手的记录也很相似,他只是说改变是灾难的一个秘诀。在十二月辩论后的国家台阶上,他告诉我们,乌托邦会懊恼 -

法警:法官代表。

Fozzy代表:辩论结束后,大会的步骤从未说过。在辩论之后我没有说过这样的话。我想你需要检查一下你的事实。

法警:通过主席,

代理Kermit:先生,我重复了我在媒体上所听到的内容,先生。