所以我一直在使用CURL和simple_html_dom一段时间,对于那些不熟悉简单HTML DOM的人来说 - 它允许你轻松地浏览元素,而且不必使用正则表达式/爆炸性的东西和等等。
E.g。
$html = file_get_html($obj->loc);
$item['title'] = $html->find('#Prod-Name h1',0)->plaintext;
然而,据我所知,这不支持cookie - 就像CURL一样,那里有什么东西吗?
有兴趣听听人们在此屏幕抓取/机器人创建方面的经验。
答案 0 :(得分:0)
您可以使用curl下载并使用您选择的解析库解析它。我有时会使用这种方法,但我对它不是很满意,如果php有一些不错的抓取库,如果它们是内置的,那就更好了。