应用错误收集

如果可以从任何html源代码中获取纯文本，我很有勇气。

这是我的简单代码：

preg_match_all("/>(.*)</",$htmlFile,$matches,PREG_SET_ORDER);

foreach ($matches as $match)
{
        highlight_string($match[0]);
}
die();

显而易见的问题是>(.*)<之间并非一切都是纯文本。例如，在那种情况下：

<table style="width:100%"><tr><th>Firstname</th><th>Lastname</th><th>Age</th></tr><tr><td>Jill</td><td>Smith</td><td>50</td></tr><tr><td>Eve</td><td>Jackson</td><td>94</td></tr></table>

我期待得到：

名字，姓氏，年龄，吉尔，史密斯，50，伊芙，杰克逊，94

PHP ::获取纯文本

0 个答案: