如何制作一个小的PHP链接“蜘蛛”并提取数据?

时间:2011-12-25 23:50:20

标签: php regex dom domdocument

我想要一个简单的白色网站,它有许多代表的html链接 电话号码的名称和地址。从每个页面我想要提取确切的3个字段 介于3 TD之间,如:

    <div id="idTabResults2" align="center">
        <TABLE border='1'>
    <tr><th>Name</th><th>Adress</th><th>Phone number</th></tr>
    <TR>
          <TD>Joe</TD><TD>New York</TD><TD>555999</TD></TR>
    </TABLE>

    </div>

所以在上面的例子中我会得到“Joe”,“New York”和&amp; 555999。 我稍后使用php和mysql将每个结果插入到我的数据库中。 有人能指出我如何解决这个问题的正确方向吗?

2 个答案:

答案 0 :(得分:1)

您可以使用cURL检索网页内容。

获得内容后,您可以使用PHP的DOM解析它。

不要尝试使用正则表达式尝试解析它。上帝会为此而杀死一只小猫。

答案 1 :(得分:1)

可能比PeeHaa的解决方案更快(更简单):

例如:

<?php
require("simple_html_dom.php");
$data = file_get_contents(YOUR_PAGE_HERE);
$html = str_get_html($data);
$tds = $html->find('td');

foreach ($tds as $td) {
  // Do something
}
?>