Question

假设我们有一个网站speedywap.com

当我在浏览器中打开网站然后将页面复制到剪贴板时，当我将其粘贴到记事本（窗口）中时，只剩下文本。除了链接等文本（即显示在屏幕上）之外，所有代码都被删除。

我想用php做类似的事情，因为我正在尝试创建一个关键字密度分析器。所以我想要的东西只能保留屏幕上显示的网页中的文字。

我的服务器正在运行apache，php，centos和mysql

Answer 1

<?php
$content = file_get_contents('http://speedywap.com');
echo $content;
?>

你可以使用strip_tags从中剥离标签，然后你就会留下文字。

Answer 2

对于一个非常幼稚的开始，你可以使用它：

<?php

echo strip_tags(file_get_contents('http://speedywap.com'));

?>

Answer 3

function curl($url){
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL,$url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
    return curl_exec($ch);
    curl_close ($ch);
}

$html = curl('http://speedywap.com');

cURL比fgc快很多倍。您可以使用strip_tags，但这并不能保证任何事情，只能使用str_replace，preg_replace等手动解析页面。

这是你使用strip_tags获得的： http://pokit.etf.ba/get/47a07bd62ea42dd3d447f060c01ccfb5.png

Answer 4

在此开发代码 - ＆gt; http：//www.barattalo.it/2010/03/01/php-curl-bot-to-update-facebook-status/

Answer 5

如果你想获得幻想，请使用file_get_contents或curl。

<?php
$content = file_get_contents('http://speedywap.com');
echo $content; // or analyze, or whatever

Answer 6

您可以使用file_get_contents('http://www.speedywap.com/');获取页面源，然后使用一些过滤器/正则表达式来获取所需的文本。

Answer 7

您还可以使用strip_tags：http://php.net/manual/en/function.strip-tags.php

Answer 8

strip_tags不会从您需要的内容中删除或替换HTML空间（ ，£，–等之类的内容，浏览器副本（ Ctrl + A ， Ctrl + C ），然后粘贴到记事本中。您将必须编写特定的代码来替换每个代码，例如：

str_replace('& nbsp;',' ',$mytext); 
str_replace('& ndash;','-',$mytext);

等处理这些。我需要将TinyMCE中用户创建的内容（允许格式化文本）转换为客户端的纯文本。超越strip_tags的PHP命令可以做到这一点，但是我找不到一个。

从网页复制文本

8 个答案: