形成正则表达式模式很麻烦。

时间:2018-08-16 10:51:29

标签: python regex python-3.x

我有一个多行文档,必须从中提取特定部分。

  

ID:58101 \ n位置:亚美尼亚埃里温\ n   _信息:Aregak由美国国际卫理公会联合卫理公会成立于1997年,总部位于美国纽约。   2006年,Aregak UCO CJSC获得了进行全面生产的许可   亚美尼亚的银行信贷服务。该组织在十个迷宫中运作   亚美尼亚以及整个纳戈尔诺-卡拉巴赫。阿雷加克总公司位于   在埃里温。 \ n START_DA:2013年11月28日

现在这就是我对“ ^ _info:(\ n |。)* START_DA:”的看法。问题是它也突出了start_da。如果要在单词末尾(START_DA :)检测到“:”,并且不包含该单词,我想使其与该单词一样。因此,我的目标是从_info:到..headoffice的外行术语位于埃里温。请指教。

1 个答案:

答案 0 :(得分:2)

您可以改为使positive lookahead表达式中的START_DA:一部分:

^_info:(\n|.)*(?=START_DA:)