的file_get_contents( 'http://en.wikipedia.org/wiki/Category:Upcoming_singles');

时间:2011-10-06 22:50:11

标签: php caching screen-scraping wikipedia

file_get_contents('http://en.wikipedia.org/wiki/Category:Upcoming_singles');  

返回不同的结果(2个产品)

使用Chrome访问同一地址会返回4个产品。

经检查,我怀疑这可能与

有关
  

使用... timestamp ...

保存在解析器缓存密钥中

在html中返回。使用file_get_contents()

时,时间戳较旧

有关如何使用file_get_contents()获取最新信息的任何想法?

谢谢!

4 个答案:

答案 0 :(得分:5)

假设file_get_contents正在发出http请求,最好检查指定的用户代理。

我听说过使用某些用户代理获取数据时出现问题。看看this question

您可以使用流上下文指定其他选项(包括用户代理):

<?php
$opts = array(
  'http'=>array(
    'method'=>"GET",
    'header'=>"Accept-language: en\r\n" .
              "Cookie: foo=bar\r\n"
  )
);

$context = stream_context_create($opts);

// Open the file using the HTTP headers set above
$file = file_get_contents('http://www.example.com/', false, $context);

查看file_get_contents docs

另外,正如杰克所说,cURL是一个更好的选择。

修改

你弄错了。您要添加的是不同的用户代理。例如,使用mozilla firefox中的用户代理可以获得4个结果:

<?php

    $opts = array(
      'http'=>array(
        'method'=>"GET",
        'header'=>"Accept-language: en\r\n" .
                  "User-Agent: Mozilla/5.0 (X11; U; Linux x86_64; es-AR; rv:1.9.2.23) Gecko/20110921 Ubuntu/10.10 (maverick) Firefox/3.6.23"
      )
    );

    $context = stream_context_create($opts);

    // Open the file using the HTTP headers set above
    $file = file_get_contents('http://en.wikipedia.org/wiki/Category:Upcoming_singles', false, $context);
    print $file;

但是,我认为这不是“合法的”,欺骗它并不好。我认为维基百科必须提供任何其他用户代理才能从外部应用程序中获取数据。

答案 1 :(得分:2)

根据Wikimedia User-Agent policy,要求所有请求都标识自己。我强烈建议不要伪造浏览器用户代理。没有必要这样做。

数以百万计的机器一直在访问维基百科和其他维基媒体基金会项目。只是表明你自己,你的剧本,这并不难!

// Identify yourself by your bot, script, company, whatever
ini_set( 'user_agent', 'MyBot/1.0; John Doe (contact: info@example.og)' );

// Open the file using the HTTP headers set above
$contents = file_get_contents( 'http://en.wikipedia.org/wiki/Sandbox' );
echo $contents;

答案 2 :(得分:2)

无论如何,你真的应该使用MediaWiki API而不是试图从人类可读的类别页面屏蔽信息。例如,try this query使用list=categorymembers

一些注意事项:

  • 选择合适的results format(对于PHP,可能是format=php)。
  • 默认限制为每个查询10个结果,但您可以使用cmlimit=max将其增加到500个。之后,您需要使用query continuation mechanism

您还可以使用现有的MediaWiki API client libraries之一来处理这些以及其他一些细节。

最后,请与维基媒体服务器保持良好关系:不要同时发送多个查询,并在本地缓存结果,如果您将很快再次需要它们。最好在User-Agent标题中包含您的联系信息(URL或电子邮件地址),以便维基媒体的系统管理员可以在您的代码导致过多的服务器负载时轻松与您联系。

答案 3 :(得分:1)

尝试使用cURL并设置标题以获取最新信息,而不是缓存(抱歉,我记不清确切要设置的标题)