从网页复制文本

时间:2010-12-27 21:33:34

标签: php mysql apache centos keyword

假设我们有一个网站speedywap.com

当我在浏览器中打开网站然后将页面复制到剪贴板时,当我将其粘贴到记事本(窗口)中时,只剩下文本。除了链接等文本(即显示在屏幕上)之外,所有代码都被删除。

我想用php做类似的事情,因为我正在尝试创建一个关键字密度分析器。所以我想要的东西只能保留屏幕上显示的网页中的文字。

我的服务器正在运行apache,php,centos和mysql

8 个答案:

答案 0 :(得分:5)

<?php
$content = file_get_contents('http://speedywap.com');
echo $content;
?>

你可以使用strip_tags从中剥离标签,然后你就会留下文字。

答案 1 :(得分:2)

对于一个非常幼稚的开始,你可以使用它:

<?php

echo strip_tags(file_get_contents('http://speedywap.com'));

?>

答案 2 :(得分:1)

function curl($url){
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL,$url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
    return curl_exec($ch);
    curl_close ($ch);
}

$html = curl('http://speedywap.com');

cURL比fgc快很多倍。 您可以使用strip_tags,但这并不能保证任何事情,只能使用str_replace,preg_replace等手动解析页面。

这是你使用strip_tags获得的: http://pokit.etf.ba/get/47a07bd62ea42dd3d447f060c01ccfb5.png

答案 3 :(得分:1)

在此开发代码 - &gt; http://www.barattalo.it/2010/03/01/php-curl-bot-to-update-facebook-status/

答案 4 :(得分:0)

如果你想获得幻想,请使用file_get_contents或curl。

<?php
$content = file_get_contents('http://speedywap.com');
echo $content; // or analyze, or whatever

答案 5 :(得分:0)

您可以使用file_get_contents('http://www.speedywap.com/');获取页面源,然后使用一些过滤器/正则表达式来获取所需的文本。

答案 6 :(得分:0)

您还可以使用strip_tagshttp://php.net/manual/en/function.strip-tags.php

答案 7 :(得分:0)

strip_tags不会从您需要的内容中删除或替换HTML空间(&nbsp;&pound;&ndash;等之类的内容,浏览器副本( Ctrl + A Ctrl + C ),然后粘贴到记事本中。您将必须编写特定的代码来替换每个代码,例如:

str_replace('& nbsp;',' ',$mytext); 
str_replace('& ndash;','-',$mytext);

等处理这些。 我需要将TinyMCE中用户创建的内容(允许格式化文本)转换为客户端的纯文本。超越strip_tags的PHP命令可以做到这一点,但是我找不到一个。