PHP:来自cURL,HTML Scan的数据

时间:2009-12-28 20:24:50

标签: php html html-content-extraction

如何扫描html页面,查找特定div中的文本?

4 个答案:

答案 0 :(得分:2)

最简单的方法是使用Simple HTML DOM parser

// Create a DOM object from a URL
$html = file_get_html('http://www.google.com/');    

// Find all <div> which attribute id=foo
$ret = $html->find('div[id=foo]');

答案 1 :(得分:0)

preg_match()匹配您想要的子字符串或使用dom / xml。

答案 2 :(得分:0)

您也可以使用DOMDocument类来完成此操作。

用法很简单:

$dom = new DOMDocument();
$dom->loadHTML(file_get_contents($url));

// Example:
$dom->getElementById('foo');

文档为here

可以找到真实世界使用的示例here

答案 3 :(得分:0)

您可以使用其他人建议的内置功能,或者您可以尝试使用Simple HTML DOM Parser实现为一个简单的PHP类和一些辅助函数。它支持CSS选择器样式的屏幕抓取(例如在jQuery中),可以处理无效的HTML,甚至提供熟悉的界面来操作DOM。

值得在http://simplehtmldom.sourceforge.net/

查看