包含Unicode字符的DOMXPath查询属性

时间:2019-04-11 02:37:48

标签: php html xpath unicode domxpath

是否可以访问包含Unicode类名称的元素?

我实际上是accessing this site,但是他们的类名以Unicode字符U + 1F41D HONEYBEE开头

$html = file_get_contents('https://www.honestbee.my/en/groceries/stores/bens-independent-grocer/products/720365');
$doc = new \DOMDocument();
$doc->loadHTML($html);

$xpath = new \DOMXpath($doc);

$elements = $xpath->query("//[@class='ap0']");
if (!is_null($elements)) {
    foreach ($elements as $element) {
        echo "<br/>[". $element->nodeName. "]";

        $nodes = $element->childNodes;
        foreach ($nodes as $node) {
            echo $node->nodeValue. "\n";
        }
    }
}

不幸的是,它引发了错误

ErrorException  : DOMXPath::query(): Invalid expression                                                                                                     
 at /paht/to/test-dom.php:83                                                                        
   79|         $doc->loadHTML($html);                                       
   80|                                                                      
   81|         $xpath = new \DOMXpath($doc);                                
   82|                                                                      
 > 83|         $elements = $xpath->query("//[@class='ap0']");             
   84|         if (!is_null($elements)) {                                   
   85|             foreach ($elements as $element) {                        
   86|                 echo "<br/>[". $element->nodeName. "]";              
   87|                                                                      

Exception trace:

1   DOMXPath::query("//[@class='ap0']")                                  
    /paht/to/test-dom.php:83

我指的是emoji code here,尝试过\uD83Dap0也不起作用

3 个答案:

答案 0 :(得分:1)

好吧,在尝试$doc->saveHTML()并注意到所有Unicode字符都已损坏之前,我陷入了字符编码之类的难题。我的猜测是DOMDocument::loadHTML将所有内容都视为ISO-8859-1,这是HTML 4的默认编码。因此,通过添加XML序言,我们可以欺骗它解析为UTF-8。这样,无论使用什么字符,都可以按类名进行搜索:

<?php
$html = file_get_contents('https://www.honestbee.my/en/groceries/stores/bens-independent-grocer/products/720365');
$prologue = '<?xml encoding="UTF-8">';
$doc = new \DOMDocument();
$doc->loadHTML($prologue . $html);
$xpath = new \DOMXpath($doc);
$elements = $xpath->query("//div[@class='ap0']");
foreach ($elements as $element) {
    echo "<br/>[". $element->nodeName. "]";
    $nodes = $element->childNodes;
    foreach ($nodes as $node) {
        echo $node->nodeValue. " \n";
    }
}

还值得注意的是,“无效表达式”错误不是由于蜜蜂引起的,而是因为您的查询中没有元素名称。在我的回答中,我使用了div,如果要搜索所有元素,可以使用*。

答案 1 :(得分:0)

实际上,我正在使用Rct567/DomQuery。作者已经解决了这个问题。

对于那些遇到相同问题的人,我建议使用此软件包。

答案 2 :(得分:0)

一种解决方法是将特定的已知unicode字符属性替换为ASCII字符串。在执行XPATH查询之前,立即执行此操作。

示例:$ html = preg_replace(“ /?ap0/ u”,'Beeap0123456',$ html);

或者,str_replace函数应该能够将Unicode属性名称数组替换为ASCII属性名称的映射数组。

然后,XPATH查询表达式将是简单的ASCII码之一:'// * [@ class =“ Beeap0123456”]'

(在替换的ASCII字符串中添加唯一的字符串可能会减少当文档包含其他类似属性时造成混淆的可能性。)