在网页上提取相关产品的价格

时间:2014-05-16 15:07:03

标签: php dom xpath text-extraction

我正在开发一个网络刮刀。我已经在我的产品网页上搜索了产品标题。如果页面上存在相同的产品,那么我想提取该产品的价格。 为此我使用XPath

这是我的html代码,我需要从中提取价格。

<div class="products_list_table">
    <table id="products_list_table_table" cellspacing="6" cellpadding="0" border="0">
       <tbody>
         <tr>
           <td valign="top" align="center">
              <span class="product_title">Malik Candy FC Composite Hockey Stick</span>
              <div class="list_price_bar all-cnrs">
                  <span class="list_price_title">Price Now:</span>
                  <span class="list_sale_price">£40.00</span>
              </div>
            </td>
         </tr>
        <tr>
           <td valign="top" align="center">
              <span class="product_title">Malik TC Stylish Hockey Stick</span>
              <div class="list_price_bar all-cnrs">
                  <span class="list_price_title">Price Now:</span>
                  <span class="list_sale_price">£70.00</span>
              </div>
            </td>
         </tr>

        ...
       </tbody>
     </table>
   <div>

所有产品都有很多tr标签,如果发现我想要提取该产品的价格,我会搜索产品标题。

这是我在php.php文件中的php代码

<?php
set_time_limit(0);
if(isset($_POST['title']) && $_POST['title']!= ''){ 
   $product_title = mysql_real_escape_string($_POST['title']);
   $url = 'http://www.example.com';
   $html = file_get_contents($url);     
   $doc = new DOMDocument(); 
   @$doc->loadHTML($html);      
   $xpath = new DOMXPath($doc);
   $found = $xpath->evaluate("boolean(//span[contains(text(), '". $product_title  ."' )])");
if($found == false){
     echo "Not Found";      
}
else { 
     $elements = $xpath->evaluate("//span[@class='list_sale_price']");
     if (!is_null($elements)) {
        foreach ($elements as $element) {
             $nodes = $element->childNodes;
             foreach ($nodes as $node) {
                 echo $node->nodeValue.'<br>';
                 }
        }
     }
}
 }

?>

这里我使用test.php中的表单来搜索产品

<html>
<head>
<title></title>
</head>
<body>
   <form action="" method="post">
       <label>Enter product title to search</label><br /><br />
       <input type="text" name="title" size="50" /><br /><br />
       <input type="submit" value="Search" onclick="msg()"/>
   </form> 
</body>
</html>

找到产品后,我想提取该产品的价格,但它会在页面上显示所有价格。我弄错了。需要xpath表达式来提取匹配产品的价格。

1 个答案:

答案 0 :(得分:1)

您不需要多个表达式。您可以通过选择匹配的div之后的span来提取一个 XPath表达式的价格,并在此上下文中提取其具有该类的子span list_sale_price

//span[contains(text(), 'Malik Candy' )]/following-sibling::div/span[@class='list_sale_price']