Php屏幕抓取使用php简单的dom解析器

时间:2011-01-16 10:34:34

标签: php screen-scraping html-parsing web-scraping simpledom

我使用简单的html dom解析器来搜索网站...如何在循环中跳过特定的类

2 个答案:

答案 0 :(得分:1)

http://simplehtmldom.sourceforge.net/manual.htm#frag_find_attr判断你可以使用:

->find("div[class!=skip_me]")

或者使用DOM方法并使用->getAttribute("class")检查值。

答案 1 :(得分:0)

  // DOM can load HTML soup. But, HTML soup can throw warnings, suppress
  // them.
  $htmlDom = new DOMDocument();
  @$htmlDom->loadHTML($html);
  if ($htmlDom) {
    // It's much easier to work with simplexml than DOM, luckily enough
    // we can just simply import our DOM tree.
    $elements = simplexml_import_dom($htmlDom);

这是(几乎)来自Drupal 7 SimpleTest的引用。在此之后,使用该文档可以更容易地工作,该类可以作为$ element ['class']

来实现