从文本文件

时间:2015-06-27 10:01:58

标签: linux bash text webpage

我想在文本文件中包含nu.nl的新闻标题,以便我可以在我的一个bash脚本中使用它们。我想用bash脚本提取这些标题。

我添加了今天nu.nl主页的截图(http://i.stack.imgur.com/gS2mp.png)。例如,我想要一个文本文件:

"Ook met Grieks referendum houdt Eurogroep vandaag nog overleg <br/>
Koeweit pakt verdachten van aanslag op <br/>
Ruim 4 op de 5 boetes voor te hard rijden <br/>
... et cetera"

我在Ubuntu 14.04.2 LTS上编写bash脚本(GNU / Linux 3.16.0-41-generic x86_64)

1 个答案:

答案 0 :(得分:3)

使用XML解析器(xmlstarlet,xmllint ...)来解析其中的一个或多个rss feeds

wget -O - http://www.nu.nl/rss/Algemeen 2>/dev/null | xmlstarlet sel -t -v /rss/channel/item/title | sed 's|$| <br/>|'

输出:

Lange rijen voor pinautomaten Griekenland <br/>
A9 afgesloten vanwege groot ongeval <br/>
'Schutter aanslag Sousse was een Tunesiër' <br/>
Koning, premier en minister Hennis bij Veteranendag in Den Haag <br/>
'Koeweit pakt verdachten van aanslag op' <br/>
Ruim 4 op de 5 boetes zijn voor te hard rijden <br/>
Witte Huis verlicht met regenboogkleuren om homohuwelijk VS <br/>
'Te veel leraren staan zonder diploma voor de klas' <br/>
Vliegtuig met Nederlandse toeristen uit Tunesië geland op Schiphol <br/>
Ernstige mishandeling en aanhoudingen bij TT Assen <br/>