使用simplehtmldom刮取数据而不使用div后的div

时间:2016-10-12 15:14:56

标签: html web-scraping simple-html-dom

我怎样才能到达3行并且只提取时间?

<BR>
<BR>UTC=2016-10-12  15:03:58.042 Wed
<BR> LT=2016-10-12  17:03:58.042 Wed (Summer)
<BR>Country/Timezone=+1d (Berlin,Brussels,Paris) ,UTC=60 min.
<BR>Summertime from 25 Mar 01:00, Wintertime from 25 Oct 01:00 (UTC)

所以期望的输出是:17:03:58.042

我正在尝试使用Simple html dom

显示所有文字。 我试图找到正确的选择器,但我想要的数据不在div之间。 它只是为了 谁知道如何选择正确的线?

<?php
// example of how to use basic selector to retrieve HTML contents
include('simple_html_dom.php');

// get DOM from URL or file
$html = file_get_html('http://10.20.83.1/status.htm');

// extract text from HTML
echo $html->plaintext;
?>

1 个答案:

答案 0 :(得分:1)

<强> 1。提取文字。

也许使用:

// Find all text blocks $es = $html->find('text');

来自http://simplehtmldom.sourceforge.net/manual.htm#section_quickstart

注意:如果想要的文本块总是第二个,你可以使用它:

// Find all text blocks $es = $html->find('text', 2);

<强> 2。按格式验证或解释日期。

我曾经写过一个小的PHP函数来按格式猜测一些日期时间值。 请参阅:http://pastebin.com/DrYwdU2D

如果您愿意,可以使用正则表达式执行相同的操作: PHP Regex to check date is in YYYY-MM-DD format

希望它有所帮助。