如何从HTML页面中提取文本块?

时间:2011-03-08 23:15:02

标签: php html html-content-extraction

我想使用PHP从大型HTML页面中提取超过100个单词的文本块。文本是否包含在<p>...</p>中无关紧要。我只关心构成连贯文本块的单词数量,因此也应考虑HTML段落之外的文本。

如何做到这一点?

2 个答案:

答案 0 :(得分:5)

我使用phpQuery。你熟悉jQuery吗?他们共享相同的语法。你可能会担心安装一个新的库,但请相信我这个库非常值得额外考虑

phpQuery

然后您可以像这样访问它:

foreach($doc->find('p') as $element){
   $element = pq($element);
   echo str_word_count($element->text());
}

答案 1 :(得分:2)

使用PHP Simple DOM Parser

foreach($html->find('p') as $element){
   echo str_word_count($element->src);
}