在特定的分隔符后删除文本

时间:2015-11-13 18:01:30

标签: linux

我使用lynx从特定网页中提取所有链接。

lynx -dump http://www.example.com/videos | awk '/http/"{print $2}"' >> links.txt

它提供以下输出:

http://www.example.com/home/
http://www.example.com/contact/
http://www.example.com/videos/
..
..
..
..
http://www.example.com/video/1001/The-title-of-video
http://www.example.com/video/1002/The-title-of-video
http://www.example.com/video/1003/The-title-of-video
http://www.example.com/video/1004/The-title-of-video
..so on

我想做以下事情。

  1. 仅输出包含/ video /
  2. 的链接
  3. 删除链接末尾的标题http://www.example.com/video/1001/ 视频标题应仅输出http://www.example.com/video/1001/

1 个答案:

答案 0 :(得分:1)

使用grep过滤输出,sed删除标题:

lynx -dump http://www.example.com/videos | grep /video/ | sed 's=/[^/]*$=='