我是使用CURL和新手PHP编码器的新手。我想在网页上采用特定元素(通过AJAX进行更改)并使用CURL将它们输入到数据库中。截至目前,我可以使用CURL编写网页的文本文件,但我真的不知道下一步该去哪里。
答案 0 :(得分:0)
你需要做所谓的'刮痧'。以下是我在Google上发现的一个小教程:http://www.oooff.com/php-scripts/basic-php-scraped-data-parsing/basic-php-data-parsing
答案 1 :(得分:0)
这通常是通过使用cURL抓取页面来处理的。如果你连续抓取一堆页面,我建议使用curl_multi系列函数并行获取它们。如果您要查找网页的特定部分,可以将HTML文档加载到SimpleXMLElement并使用xpath查询特定数据。
此解决方案的唯一问题是您说您需要从页面中抓取AJAX内容。 cURL只与服务器交互 - 它不能触发客户端JavaScript。某些AJAX应用程序的服务器端等同于您正在查看的AJAX内容(例如http://example.com#test可能转换为http://example.com/test)。如果您正在使用的站点没有这种类型的映射,您可以尝试找出加载AJAX内容的URL并使用cURL直接刮取这些URL。
如果您需要更高级的客户端功能,则应该查看Selenium。如果你谷歌搜索“Selenium screen scrape”,你会看到一些interesting results。我知道在PHPUnit中有一个Selenium集成可能值得一看。
这是另一个涉及屏幕抓取AJAX页面的问题:How do you scrape AJAX pages?