在PHP中解析一个巨大的XML数组

时间:2013-03-11 18:41:17

标签: php xml

我想从this URL: http://livingsocial.com/cities.atom获取数据。每次我点击此URL时,浏览器都会卡住。我尝试通过curl和file_get_contents()直接点击它,但结果是一样的。

此URL发送一个巨大的Xml,我必须从中获取并从中收集所需信息并将其保存在数据库中。

请帮我完成此任务或至少告诉我如何获取此XML?

3 个答案:

答案 0 :(得分:1)

一旦我面临同样的问题..要在Chrome中打开此URL的文件内容,并在1或2秒后停止它..它将显示xml的结构.. 完成最后1或2个标签并享受..我在这里粘贴结构..

<?xml version="1.0"?>
  <feed xmlns:ls="http://livingsocial.com/ns/1.0" xmlns="http://www.w3.org/2005/Atom" xmlns:georss="http://www.georss.org/georss" xml:lang="en-US">
  <title>LivingSocial Deals</title>
  <updated>2013-03-12T00:49:21-04:00</updated>
  <id>tag:livingsocial.com,2005:/cities.atom</id>
  <link rel="alternate" type="text/html" href="http://www.livingsocial.com/"/>
  <link rel="self" type="application/atom+xml" href="http://www.livingsocial.com/cities.atom"/>
    <entry>
      <id></id>
      <published></published>
      <updated></updated>
      <link type="text/html" href="http://www.livingsocial.com/cities/1759-sacramento-citywide/deals/620554-set-of-two-organic-yoga-leggings" rel="alternate"/>
      <title></title>
      <long_title></long_title>
      <deal_type></deal_type>
      <merchandise_type></merchandise_type>
      <market_id></market_id>
      <market_name></market_name>
      <georss:point></georss:point>
      <georss:featureTypeTag>city</georss:featureTypeTag>
      <country_code>US</country_code>
      <subtitle></subtitle>
      <offer_ends_at></offer_ends_at>
      <price></price>
      <value></value>
      <savings></savings>
      <orders_count></orders_count>
      <merchant_name></merchant_name>
      <image_url></image_url>
      <categories></categories>
      <sold_out></sold_out>
      <national></national>
      <description></description>
      <details></details>
      <content type="html"></content>
      <ls:merchant></ls:merchant>
      <author>
        <name></name>
      </author>
    </entry>
  </feed>
</xml>

答案 1 :(得分:0)

我甚至无法在我的浏览器上加载文件,所以我的猜测是它过大而你应该尝试限制你必须以某种方式加载的数量(是否有参数可以让你只指定一个城市?)但是,如果这不是一个选项,the first example here有一个类应该大致你正在寻找的类。只需确保传递网址而不是CURL请求的内容。

答案 2 :(得分:0)

URL http://www.livingsocial.com/cities.atom只是很大(94 354 882字节,大约是90 MB)并且需要花费时间加载(这里是33秒)。

由于这是一个远程资源,因此无法更改。

但是,如果将该源存储到磁盘(缓存它),则可以减少将文件加载到Simplexml或DOMDocument到ca的时间。 1.5秒。

// Store URL to disk (takes ca. 33 seconds)
$url = 'http://www.livingsocial.com/cities.atom';
$out = 'cities.atom.xml';
$fh  = fopen($url, 'r');
$r   = file_put_contents($out, $fh);
fclose($fh);

如果仍然太慢,您不仅需要缓存远程文件,还需要解析。