如何从任何网页中仅提取主要内容? (没有页脚,菜单栏,导航栏,页脚,侧栏,面包屑)

时间:2017-01-13 11:20:53

标签: php data-extraction html-content-extraction

我使用此代码提取了全身内容。 但我不知道有删除导航栏,页脚,侧栏,面包屑。 任何人都可以建议我如何完成这项工作?

foreach($dom->getElementsByTagName("body")->item(0)->childNodes as $child) {
$bodycontent .= $dom->saveHTML($child); }

1 个答案:

答案 0 :(得分:-1)

您可以使用readability之类的内容,它以多种语言实现: