尝试抓取网页时隐藏的信息

时间:2019-04-29 09:58:47

标签: php web-crawler

这是发生错误时我的第一个问题。

当我尝试获取一个字段的信息时,在30个请求时它被分割了。
我想知道为什么以及如何获取完整的信息,因为如果手动进行可视化处理,则该信息不会隐藏在html中。

这是我正在尝试的小规模示例

网址:https://empresite.eleconomista.es/MUSEO-VINO-MADRID.html

<?php
require_once 'simple_html_dom.php';

$html = file_get_html('https://empresite.eleconomista.es/MUSEO-VINO-MADRID.html');

foreach ($html->find('section.wlogo') as $bloc) {

    foreach ($bloc->find('li.ico-cif') as $cif) {
    echo $cif->plaintext.';';
    }
}
?>

我尝试获取全部信息,并且会发生这种情况。

在30个请愿书出现之前,如下所示:

''CIF:[1234564]''

在30个请求之后:

''CIF:[1234 ...]''


我已阅读,但不知道是否与“ user_agent”有关。

在使用条款中,如果询问我的操作是否不合适,则在自动获取信息时未指定任何内容。

0 个答案:

没有答案