使用php从html中提取信息

时间:2014-07-15 10:22:11

标签: php regex preg-match domdocument html-content-extraction

我有一个包含此信息范围的页面。 我正在寻找一种方法来提取与'交换的信息。正如您所看到的那样折叠带有没有任何属性的节标签信息' xyzem'我需要没有特殊财产。 我使用DOMDocument和loadHTMLFile。如果你引导我,我会很高兴....

<div class="divPrev">
<section>
    <label>price </label>
    <div class="divPrevTxt">50000$</div>
</section>    
    <section>
        <label>information</label>
        <div class="divPrevTxt">a,b,c</div>
    </section>    
    <section>
        <label>supors</label>
        <div class="divPrevTxt">som info</div>
    </section>
    <section>
        <label>documents</label>
        <div class="divPrevTxt">x,y,z</div>
    </section>                                               
    <section>

//*************************NOTICE       
    <section>                
        <label>
            exchange with
        </label>
        <div class="divPrevTxt">
            xyzem //I NEED THIS PIECE 
        </div>
    </section>

//*************************END NOTICE       


    <section>
        <label>address</label>
        <div id="divAddress" class="divPrevTxt">mon-mphho-33000</div>
    </section>
    <section>
        <label>contact</label>
        <div class="divPrevTxt" id="contactInfo">
            <span style="color:#DE9C26"></span>
                88-8888-999,9987-9989-88a
        </div>
    </section>           

1 个答案:

答案 0 :(得分:0)

我会使用正则表达式:

preg_match('#<label>(?:\s)*exchange with(?:\s)*</label>(?:\s)*<div class="divPrevTxt">(?:\s)*(.*)(?:\s)*</div>#i',$content, $matches);

echo $matches[1];

为您的内容返回:

xyzem //I NEED THIS PIECE