文本提取器php

时间:2013-04-10 12:59:07

标签: php

我在另一页test1.php上有这个页面test.php我运行了这个PHP代码:

 <?php 
    libxml_use_internal_errors(true); 
    $doc = new DOMDocument(); 
    $doc->loadHTMLFile("http://inviatapenet.gethost.ro/sop/test1.php"); 
    $xpath = new DOMXpath($doc); 
    $elements = $xpath->query("//*[@type='text/javascript']/@fid");
        if (!is_null($elements)) {
            foreach ($elements as $element) {
                $nodes = $element->childNodes;
                foreach ($nodes as $node) {
                    echo $node->nodeValue. "\n";
                }
            }
        }
?>

但没有显示任何内容。

我正试图从该页面获取,只有fid =“x8qfp3cvzbxng8e”的内容:

从这条线

<script type="text/javascript"> fid="x8qfp3cvzbxng8e"; v_width=640;
v_height=360; </script>

输出值为:

  

x8qfp3cvzbxng8e

我必须做什么?

1 个答案:

答案 0 :(得分:0)

如果您只想fid个内容使用此正则表达式

 preg_match_all('~fid="(.*?)"~si',$Text,$Match);
 print_r($Match);

您的样本输出

 Array
(
   [0] => Array
    (
        [0] => fid="x8qfp3cvzbxng8e"
    )

   [1] => Array
    (
        [0] => x8qfp3cvzbxng8e
    )

)

尝试使用此提取文字,但不显示任何script内容,但如果您愿意,可以删除此条件

 function extractText($node) {
     if($node==NULL)return false;    
     if (XML_TEXT_NODE === $node->nodeType || XML_CDATA_SECTION_NODE === $node->nodeType) {
         return $node->nodeValue;
     } else if (XML_ELEMENT_NODE === $node->nodeType || XML_DOCUMENT_NODE === $node->nodeType || XML_DOCUMENT_FRAG_NODE === $node->nodeType) {
       if ('script' === $node->nodeName) return '';

       $text = '';
       foreach($node->childNodes as $childNode) {
          $text .= extractText($childNode);
       }
       return $text;
     }
}

样本

 $Text=file_get_contents("http://inviatapenet.gethost.ro/sop/test1.php");
 preg_match_all('~fid="(.*?)"~si',$Text,$Match);
 $fid=$Match[1][1];
 echo $fid;