如何筛选网站并获取div中的数据?

时间:2010-03-26 12:09:33

标签: php curl screen-scraping

如何使用cURL屏蔽网站并在特定div中显示数据?

4 个答案:

答案 0 :(得分:6)

使用cURL下载页面(文档中有很多examples)。然后使用DOM解析器,例如Simple HTML DOM或PHP DOM从div元素中提取值。

答案 1 :(得分:0)

使用cURL下载后,使用XPath选择div并提取内容。

答案 2 :(得分:-1)

使用cURL GET请求获取网站内容。 curl_exec manual page上有一个代码示例。

使用正则表达式搜索所需的数据。 preg_match manual page上有一个代码示例,但您需要在regular expressions上进行一些阅读,以便能够构建所需的模式。正如我提到的Yacoby所提到的,更好的想法可能是使用PHP的Simple XML或DOM解析器来检查HTML页面的DOM。

在页面的HTML中输出您从正则表达式/解析器中找到的信息(在必需的div内。)

答案 3 :(得分:-1)

可能的替代方案。

# We will store the web page in a string variable.
var string page

# Read the page into the string variable.
cat "http://www.abczyx.com/path/to/page.ext" > $page

# Output the portion in the third (3rd) instance of "<div...</div>"
stex -r -c "^<div&</div\>^3" $page

这段代码是biterscripting。我使用3作为样本来提取第3个div。如果要提取具有字符串“ABC”的div,请使用此命令语法。

stex -r -c "^<div&ABC&</div\>^" $page

看一下这个脚本http://www.biterscripting.com/helppages/SS_ExtractTable.html。它展示了在嵌套元素时如何提取元素(div,table,frame等)。