使用wget提取元标记属性

时间:2011-06-26 10:45:22

标签: html meta-tags

我的文件每行都有一些网址。我需要提取标签中存在的“关键字”,即如果有“关键字”的元标记,那么我想获得它的“内容”值。示例:如果网页具有此元标记,那么对于该网址,我希望提取“维基百科,百科全书”。

一种方法是使用“wget”下载网页,然后使用一些标准的HTML解析器解析它。

我想知道有没有更好的方法可以在不下载整个网页的情况下执行此操作。

1 个答案:

答案 0 :(得分:0)

您所描述的是最简单的实施方案。

如果您担心产生的网络流量,您可以编写一个只读取标题的小程序。只要您阅读<body..>标记,就可以完成下载。

更新:您必须为您的套接字设置一个非常小的接收缓冲区,否则内核可能仍会下载整个页面。使用tcpdump验证您的解决方案。