Question

我想要一个简单的白色网站，它有许多代表的html链接电话号码的名称和地址。从每个页面我想要提取确切的3个字段介于3 TD之间，如：

    <div id="idTabResults2" align="center">
        <TABLE border='1'>
    <tr><th>Name</th><th>Adress</th><th>Phone number</th></tr>
    <TR>
          <TD>Joe</TD><TD>New York</TD><TD>555999</TD></TR>
    </TABLE>

    </div>

所以在上面的例子中我会得到“Joe”，“New York”和＆amp; 555999。我稍后使用php和mysql将每个结果插入到我的数据库中。有人能指出我如何解决这个问题的正确方向吗？

Answer 1

您可以使用cURL检索网页内容。

获得内容后，您可以使用PHP的DOM解析它。

不要尝试使用正则表达式尝试解析它。上帝会为此而杀死一只小猫。

Answer 2

可能比PeeHaa的解决方案更快（更简单）：

使用file_get_contents()
使用Simple DOM Parser

例如：

<?php
require("simple_html_dom.php");
$data = file_get_contents(YOUR_PAGE_HERE);
$html = str_get_html($data);
$tds = $html->find('td');

foreach ($tds as $td) {
  // Do something
}
?>

如何制作一个小的PHP链接“蜘蛛”并提取数据？

2 个答案: