我正在尝试从clojure中的维基百科/维基媒体标记结构中提取一些数据。
{{Infobox company
...
...
|operating_income = {{Increase}} US$ 26.76&nbsp;billion (2013)<ref name=10K/>
|net_income = {{Increase}} US$ 21.86&nbsp;billion (2013)<ref name=10K/>
|assets = {{Increase}} US$ 142.43&nbsp;billion (2013)<ref name=10K/>
|equity = {{Increase}} US$ 78.94&nbsp;billion (2013)<ref name=10K/>
...
}}
我需要{{infobox company .... }}
区域内的信息。
所以我使用了这个正则表达式(re-seq #"\{\{(.*?)}\}" above-txt)
但这给了我一些正则表达但仍然不是全部。此页面上有大量额外数据以及嵌套{{}}
看到全文我认为我的正则表达式的问题在于它没有处理嵌套的{{..}}标签。