使用wget提取元标记属性

时间:2011-06-26 09:35:32

标签: html

我的文件每行都有一些网址。我需要提取标签中存在的“关键字”,即如果有“关键字”的元标记,那么我想获得它的“内容”值。 示例:如果网页具有此元标记:

<meta name="keywords" content="wikipedia,encyclopedia">

然后对于该URL我想要提取“维基百科,百科全书”。

一种方法是使用“wget”下载网页,然后使用一些标准的HTML解析器解析它。

我想知道有没有更好的方法可以在不下载整个网页的情况下执行此操作。

3 个答案:

答案 0 :(得分:0)

不 - 你必须下载整个页面..或者在收到一些数据后中断下载(这更糟糕,更复杂,因为AFAIK无法用wget完成,你必须编写你的代码自己的wget)。

答案 1 :(得分:0)

如果您对某些PHP感到满意,那么您应该能够通过围绕QueryPath包裹一个循环来轻松地将某些内容放在一起。

从文档中刷一个示例,这个:

require 'QueryPath/QueryPath.php';

$url = 'http://example.com';
print qp($url, 'title')->text();

...将在example.com上获取文档,提取标题标签的文本并输出 只需要花一点时间来查找元关键字标签并提取内容属性,尤其是如果您已经熟悉jQuery的话。 (这有点简化,但是大量的QueryPath或多或少地实现了“服务器端jQuery”。)

如果你采用这种编程方法并有进一步的问题,它们应该可以在主要的Stack Overflow站点上进行,其中还有一个活跃的querypath tag

答案 2 :(得分:0)

这里有另一个解决方案:

http://simplehtmldom.sourceforge.net

我还没有尝试过!