从Linux终端获取网页标题,Img,元数据信息

时间:2012-07-29 17:26:22

标签: bash webpage sh

有什么办法或任何工具可以用来从SH脚本,网页标题,描述等元数据,可能是网页的一些屏幕截图或类似的东西?

提前致谢!

1 个答案:

答案 0 :(得分:1)

您可以使用curl或wget获取网页,然后将其传输到sed以获取各种标记的内容。它是kludgy as ,但如果您使用shell脚本执行此操作,那将是您将要获得的。

例如

wget http://example.com -O - | grep \<title\>|sed "s/\<title\>\([^<]*\).*/\1/"

将为您提供标题标记的内容。请注意,在此示例中,它为您提供了原始的未解析源,因此它看起来像IANA &mdash; Example domains而不是IANA – Example domains

您是否考虑使用像perl这样的东西?