我正在解析HTML表并根据行值构建数组。我的问题是返回的关联键在它们的末尾有一些空格,给我这样的结果:
Array ( [Count ] => 6 [Class ] => 30c [Description] => Conformation Model (Combined 30,57) )
这样一条线:
echo $myArray['Count'];
或
echo $myArray['Count '];
给我一个空白的结果。
现在,我有一个非常讨厌的工作......
foreach($myArray as $row){
$count = 0;
foreach($row as $info){
if($count == 0){
echo 'Count:' . $info;
echo '<br>';
}
if($count == 1){
echo ' Class:' . $info;
echo '<br>';
}
if($count == 2){
echo ' Description:' . $info;
echo '<br>';
}
$count++;
}
}
我用来解析我找到here的表格的函数:
function parseTable($html)
{
// Find the table
preg_match("/<table.*?>.*?<\/[\s]*table>/s", $html, $table_html);
// Get title for each row
preg_match_all("/<th.*?>(.*?)<\/[\s]*th>/", $table_html[0], $matches);
$row_headers = $matches[1];
// Iterate each row
preg_match_all("/<tr.*?>(.*?)<\/[\s]*tr>/s", $table_html[0], $matches);
$table = array();
foreach($matches[1] as $row_html)
{
preg_match_all("/<td.*?>(.*?)<\/[\s]*td>/", $row_html, $td_matches);
$row = array();
for($i=0; $i<count($td_matches[1]); $i++)
{
$td = strip_tags(html_entity_decode($td_matches[1][$i]));
$row[$row_headers[$i]] = $td;
}
if(count($row) > 0)
$table[] = $row;
}
return $table;
}
我假设我可以通过更新正确的正则表达式来消除空白区域,但是,当然我避免像瘟疫这样的正则表达式。有任何想法吗?提前致谢。 -J
答案 0 :(得分:4)
您可以使用trim
删除前导和尾随空白字符:
$row[trim($row_headers[$i])] = $td;
但是不要使用正则表达式来解析HTML文档;使用适当的HTML解析器,例如Simple HTML DOM Parser或DOMDocument代替。
答案 1 :(得分:1)
一个简单的解决方案就是改变
$row[$row_headers[$i]] = $td;
为:
$row[trim($row_headers[$i])] = $td;