从网址和网站中提取内容

时间:2013-06-17 15:38:12

标签: php jquery class wrapper

我使用file_get_contents()从网站获取内容。

当我收到此内容时,我可以看到该网站的所有内容和标签。

我需要从一些标签中提取内容,而不是全部。我认为最好的是获取内容并将其保存到数据库或文本文件中以供将来操作。

例如,如果我使用php file_get_contents()

<html>
    <head><script src="script.js"></head>

    <body>
        <div id="header"></div>

        <div class="item"></div>
        <div class="item"></div>

        <div id="image"></div>

        <div class="item"></div>
        <div class="item"></div>

        <div id="footer"></div>
    </body>
</html>

我如何才能获得类item的div的内容?是否可以使用jQuery或我需要使用PHP?我尝试了很多东西,但我需要一个向导或有人告诉我如何提取我需要的东西

谢谢,问候

2 个答案:

答案 0 :(得分:0)

  1. 首先,您需要cURL进行抓取。 file_get_contents() =穷人没有自定义标题,虚假引荐等等。
  2. 被抓的内容必须加载到DOMDocument
  3. 您需要使用DOMXPath在DOM树中轻松找到所需的节点。
  4. 作为备份计划,如果处理很简单preg_match_all(),如果小心处理,可能会解决问题。
  5. 你有一个计划...... 继续学习并学习如何做到这一点!

答案 1 :(得分:0)

解析HTML并仅提取您想要的数据的最可靠方法是使用像WebKit这样的流行框架来呈现它。

尝试使用PhantomJS(http://phantomjs.org/),这是一个允许您渲染网页(通过命令行)并使用javascript或API与其进行交互的程序。

我只是保存文件,将其加载到PhantomJS中,使用我自己的jquery $('body')。('。item')。每个(....