如何使用php从网站仅提取文本数据?

时间:2019-12-19 07:04:14

标签: php curl web-crawler

我想从网站中提取所有文本数据并将其存储到文件中以进行进一步处理。我为此使用Curl库。如何使用php从网站中仅提取文本。请任何人指导我,我是极端初学者。

2 个答案:

答案 0 :(得分:1)

您可以使用抓取工具从网站获取文本数据

答案 1 :(得分:0)

您可以像下面这样工作:

<?php
function strip_tags_content($text, $tags = '', $invert = FALSE) {

  preg_match_all('/<(.+?)[\s]*\/?[\s]*>/si', trim($tags), $tags);
  $tags = array_unique($tags[1]);

  if(is_array($tags) AND count($tags) > 0) {
    if($invert == FALSE) {
      return preg_replace('@<(?!(?:'. implode('|', $tags) .')\b)(\w+)\b.*?>.*?</\1>@si', '', $text);
    }
    else {
      return preg_replace('@<('. implode('|', $tags) .')\b.*?>.*?</\1>@si', '', $text);
    }
  }
  elseif($invert == FALSE) {
    return preg_replace('@<(\w+)\b.*?>.*?</\1>@si', '', $text);
  }
  return $text;
}
?>

Sample text:
$text = '<b>sample</b> text with <div>tags</div>';

Result for strip_tags($text):
sample text with tags

Result for strip_tags_content($text):
text with

Result for strip_tags_content($text, '<b>'):
<b>sample</b> text with

Result for strip_tags_content($text, '<b>', TRUE);
text with <div>tags</div>

复制自:https://www.php.net/manual/en/function.strip-tags.php#86964