PHP Goutte / CURL - 完整的ASPX表单

时间:2017-03-21 06:32:24

标签: php asp.net curl web-scraping goutte

我正在尝试从这里获取数据:https://wyobiz.wy.gov/Business/FilingSearch.aspx

我正在尝试检查商家名称是否免费。 但是这个网站是 asp.net网络表单,整个网站是一个很大的形式。 我不知道如何从这个表单中获取数据。

我认为问题在于:

        '__VIEWSTATE' => '',
        '__VIEWSTATEGENERATOR' => '9E6EC73D',
        '__EVENTVALIDATION' => '',

可以发送请求并在PHP中获取返回的数据吗? 因为,此代码正在返回

  

当前节点列表为空。

谢谢。

我的代码:

    $crawler = $client->request('GET', 'https://wyobiz.wy.gov/Business/FilingSearch.aspx');
    $form = $crawler->selectButton('Search')->form();
    $formValues = $form->getValues();
    $crawler = $client->submit($form, array(
        '__VIEWSTATE' => $formValues['__VIEWSTATE'],
        '__VIEWSTATEGENERATOR' => $formValues['__VIEWSTATEGENERATOR'],
        '__EVENTVALIDATION' => $formValues['__EVENTVALIDATION'],
        'ctl00$MainContent$myScriptManager' => 'MainContent_myScriptManager',
        'ctl00$MainContent$txtFilingName' => 'Google',
        'ctl00$MainContent$searchOpt' => 'chkSearchStartWith',
        'ctl00$MainContent$txtFilingID' => null,
    ));
    $crawler->filter('body')->each(function ($node) {
        print $node->text() . "\n";
    });

结论:Goutte SUCKS Goutte的支持 SUCKS

2 个答案:

答案 0 :(得分:0)

好吧,我不熟悉goutte,但是使用这个软件包w3zone/crawler我已经做了一个简单的例子来废弃该链接的内容:

使用以下方式安装:

composer require w3zone/Crawler

然后按照以下方式使用它:

require_once __DIR__ . '/vendor/autoload.php';

use w3zone\Crawler\{Crawler, Services\phpCurl};

$crawler = new Crawler(new phpCurl);

$link = 'https://wyobiz.wy.gov/Business/FilingSearch.aspx';

$homePage = $crawler->get($link)->run();

preg_match('#<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="(.*?)"\s*/>#', $homePage['body'], $viewState);
preg_match('#<input type="hidden" name="__VIEWSTATEGENERATOR" id="__VIEWSTATEGENERATOR" value="(.*?)"\s*/>#', $homePage['body'], $viewGen);
preg_match('#<input type="hidden" name="__EVENTVALIDATION" id="__EVENTVALIDATION" value="(.*?)"\s*/>#', $homePage['body' ], $eventVal);

$postData = array(
    '__VIEWSTATE' => $viewState[1],
    '__LASTFOCUS' => '',
    '__EVENTTARGET' => '',
    '__EVENTARGUMENT' => '',
    '__VIEWSTATEGENERATOR' => $viewGen[1],
    '__EVENTVALIDATION' => $eventVal[1],
    'ctl00$MainContent$myScriptManager' => 'MainContent_myScriptManager',
    'ctl00$MainContent$txtFilingName' => 'test',
    'ctl00$MainContent$searchOpt' => 'chkSearchStartWith',
    'ctl00$MainContent$txtFilingID' => '',
    'ctl00$MainContent$cmdSearch' => 'Search',
    '__ASYNCPOST' => 'true',
    'ctl00$MainContent$myScriptManager' => 'ctl00$MainContent$UpdatePanel1|ctl00$MainContent$cmdSearch',
);

$response = $crawler->post(['url' => $link, 'data' => $postData])->dumpHeaders()->run();

echo "<textarea style='width: 90%; height: 200px;'>".$response['body']."</textarea>";

答案 1 :(得分:0)

对我来说问题是ASP异步响应不是HTML - 它的文本包含HTML:

<html>
1|#||4|6079|updatePanel|ctl00_MainContentPlaceHolder_ucLicenseLookup_UpdtPanelGridLookup|
                <div class="modal-window-lookup-results fade bs-example-modal-lg in">
                    <div class="modal-header">
    [...]

</html>  

因此,当goutte将其提供给浏览器套件时,它会中断。 Goutte并不傻逼 -  你不能用非HTML垃圾来提供它。

为了解决这个问题,我刚刚做了:

$crawler = $client->request('POST', $url, $params);
// this is a broken crawler because response is not html!

$html = $client->getResponse()->getContent();
$html = substr($html, strpos($html, "<div"));
$html = substr($html, 0, strpos($html, "|hiddenField|")-3);
$html = "<!DOCTYPE html><html>$html</html>";
$crawler = new \Symfony\Component\DomCrawler\Crawler($html);
print $crawler->html();