如果可以从任何html源代码中获取纯文本,我很有勇气。
这是我的简单代码:
preg_match_all("/>(.*)</",$htmlFile,$matches,PREG_SET_ORDER);
foreach ($matches as $match)
{
highlight_string($match[0]);
}
die();
显而易见的问题是>(.*)<
之间并非一切都是纯文本。
例如,在那种情况下:
<table style="width:100%"><tr><th>Firstname</th><th>Lastname</th><th>Age</th></tr><tr><td>Jill</td><td>Smith</td><td>50</td></tr><tr><td>Eve</td><td>Jackson</td><td>94</td></tr></table>
我期待得到:
名字,姓氏,年龄,吉尔,史密斯,50,伊芙,杰克逊,94