提取网址上方的HTML标题

时间:2016-03-23 21:23:38

标签: awk sed wget

当我使用此命令时

wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print $2$4}' >> new.txt

它会在此类

的txt文件中保存网址和标题列表
/player/episode/g0656bgp/the-night-manager-episode-4The Night Manager, Episode 4

我希望它能像这样保存

The Night Manager, Episode 4
/player/episode/g0656bgp/the-night-manager-episode-4

标题上方的标题 每个网址和标题

我可以使用sed awk wget grep

感谢

1 个答案:

答案 0 :(得分:0)

尝试:

wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print $4"\n"$2}' >> new.txt

与原始代码相比,只更改了awk

  • 重新安排了字段顺序,以便在字段2之前首先放置字段4
  • 然后"\n"在他们之间插入新行

因此,这可以成功地使标题位于URL之上,如您所愿。只要您的原始代码适合您,这也应该有效。