如何获得网站的特定部分或div

时间:2012-10-19 01:55:44

标签: php html applescript

我想做什么:从http://reddit.com/r/worldnews的顶部帖子中获取文字标题,然后将其输出到我的网页上,该网页上只有该文字。

最后,我想从我使用AppleScript cURL创建的网页中获取文本并输出。

我正在制作一个脚本,当我点击按钮时它会告诉我最上面的帖子。

编辑如果您可以考虑任何方式,我想做同样的事情,但是对于Facebook通知。

编辑我有PHP抓取网站并在此处输出:http://colejohnsoncreative.com/personal/ai/worldnews.php这是我正在使用的代码:

    <?php
// Get a file into an array.  In this example we'll go through HTTP to get
// the HTML source of a URL.
$lines = file('http://www.reddit.com/r/worldnews');

// Loop through our array, show HTML source as HTML source; and line numbers too.
foreach ($lines as $line_num => $line) {
    echo "Line #<b>{$line_num}</b> : " . htmlspecialchars($line) . "<br />\n";
}

// Another example, let's get a web page into a string.  See also file_get_contents().
$html = implode('', file('http://www.example.com/'));

// Using the optional flags parameter since PHP 5
$trimmed = file('somefile.txt', FILE_IGNORE_NEW_LINES | FILE_SKIP_EMPTY_LINES);
?>

所以我得到了所有网站的代码输出,但我需要的所有项目都是

<a class="title " href="http://www.dailymail.co.uk/news/article-2219477/Cannabis-factory-couple-gave-400-000-drug-dealing-fortune-poor-Kenyans-jailed-years.html" >British couple who spent most of the money they made from canabis growing on paying for life changing operations and schooling for people in a poor Kenyan village gets sent to prison for 3 years.</a>

以及我需要扔掉的其他一切,我该怎么做?

2 个答案:

答案 0 :(得分:0)

如果你在shell中,你可以 wget 页面

从php你可以 file_get_contents 页面

从java中你可以通过 URLConnection

获得它

一旦拥有它,使用你想要的语言来查看你想要的页面文本,并用它做任何你喜欢的事情

答案 1 :(得分:0)

你必须做一些解析。所以匹配你想要的模式。最简单的方法是使用str_pos来获取元素的位置,或者使用正则表达式。 他们有RSS提要吗?如果是这样,你应该使用它。