我正在尝试解析外国(韩国)地址。地址通常看起来像
Seoul, Gangnam-gu, South Korea
我希望能够提取出:Gangnam-gu
-基本上是在破折号之前和之后的单词。
但是有时候可能会出现这样的情况
Seoul, Itaewon-dong, Gangnam-gu, South Korea
因此,在这种情况下,我希望能够同时提取:Itaewon-dong
和Gangnam-gu
我知道,使用REGEX,我可以在破折号(-
)中拉出两个单词,尽管我不确定如何。最重要的是,我不知道如何消除所有情况。
答案 0 :(得分:1)
您应该尝试使用grep:
grep -oh '\w*-\w*' aa.txt
结果:
Itaewon-dong
Gangnam-gu
答案 1 :(得分:0)
这可以起到作用:
([a-zA-Z]+)-([a-zA-Z]+)
欢呼