使用RegEx获取字符串的特定部分

时间:2015-06-29 03:02:18

标签: php regex json

我正在尝试与我所有的国家/地区和州(在此处称为departamentos)制作一个json文件。我从未找到完整的列表,但现在我正在关注维基百科用户在此链接中所做的列表:

https://es.wikipedia.org/wiki/Anexo:Municipios_de_Colombia

我已经复制并粘贴了文档中的所有文本,为每个城市创建了一个新行:

  

Yacopíesunapoblaciónymunicipio del departamento de Cundinamarca

目前,我可以使用以下表达式使用RegEx选择城市:

  

/.+?(?= es)/

它首先需要从行首开始到符合“es”的所有内容,这是维基百科页面中每行的常规约定。

现在我想要实现的是使用相同的Regex行,也可以获得最后或最后两个单词的状态。我认为可以通过选择“de”之后的任何内容来达到。但是我被困住了。

任何帮助都会受到赞赏,也许全世界的其他人都可以开始用维基百科制作json文件。

1 个答案:

答案 0 :(得分:1)

这似乎至少适用于以A开头的城市。虽然我没有测试所有这些城市。

/^(.*?) es.*de (.*)$/gm

在这里玩它。 https://regex101.com/r/yJ3gK7/1(空白来自维基,并不应该在这里真正重要。)