从页面内容中获取重定向网址

时间:2018-11-06 01:00:24

标签: php laravel xpath web-scraping url-redirection

我正在尝试获取网页内容。但是做得不好。它没有给我整个页面。

function pageContent(String $url): \DOMDocument
    {
        $html = cache()->rememberForever($url, function () use ($url) {
            return file_get_contents($url);
        });
        $parser = new \DOMDocument();
        libxml_use_internal_errors(true);
        $parser->loadHTML($html);
        libxml_use_internal_errors(false);
        return $parser;
    }

    $Parser2 = pageContent($url);
    $xpath2 = new \DOMXPath($Parser2);
    $links2 = $xpath2->query("//ul[@class='areapageDetailList']/li/div[@class='areapageDetailList_item_img']/a");

foreach ($links2 as $link2) {
        $siteUrls2 [] = $link2->getAttribute("href");

    }

所以我在那里有9个链接。它们看起来都一样,但是重定向另一个页面。 我需要获取该重定向链接。这就是为什么我需要找到。它必须在该meta标记中或其他位置。因此,我尝试获取这些URL的内容。例如数组的第一个。像这样;

$content = pageContent($siteUrls2[0]);

    var_dump($content);

但是我无法获取完整的html,只是返回给我:

  

string(34)“ https://lions-mansion.jp/MF081014/”   object(DOMDocument)#697(35){[“ doctype”] =>字符串(22)“(对象   值省略)“ [”实现“] =>字符串(22)”(对象值   省略)“ [” documentElement“] =>字符串(22)”(对象值   省略)“ [” actualEncoding“] =>字符串(6)” EUC-JP“ [” encoding“] =>   字符串(6)“ EUC-JP” [“ xmlEncoding”] =>字符串(6)“ EUC-JP”
  [“ standalone”] => bool(true)[“ xmlStandalone”] => bool(true)
  [“ version”] => NULL [“ xmlVersion”] => NULL
  [“ strictErrorChecking”] => bool(true)[“ documentURI”] => NULL
  [“ config”] => NULL [“ formatOutput”] => bool(false)
  [“ validateOnParse”] => bool(false)[“ resolveExternals”] =>
  bool(false)[“ preserveWhiteSpace”] => bool(true)[“ recover”] =>
  bool(false)[“ substituteEntities”] => bool(false)[“ nodeName”] =>   string(9)“ #document” [“ nodeValue”] => NULL [“ nodeType”] =>
  int(13)[“ parentNode”] => NULL [“ childNodes”] =>字符串(22)   “(省略对象值)” [“ firstChild”] =>字符串(22)“(   值省略)“ [”“ lastChild”] =>字符串(22)“(对象值   省略)“ [” previousSibling“] => NULL [” nextSibling“] => NULL
  [“ attributes”] => NULL [“ ownerDocument”] => NULL
  [“ namespaceURI”] => NULL [“ prefix”] => string(0)“”
  [“ localName”] => NULL [“ baseURI”] => NULL [“ textContent”] =>
  字符串(860)“ミリカ・ガーデン

任何想法我在哪里错? 感谢您的帮助!

0 个答案:

没有答案