我想做什么:从http://reddit.com/r/worldnews的顶部帖子中获取文字标题,然后将其输出到我的网页上,该网页上只有该文字。
最后,我想从我使用AppleScript cURL创建的网页中获取文本并输出。
我正在制作一个脚本,当我点击按钮时它会告诉我最上面的帖子。
编辑如果您可以考虑任何方式,我想做同样的事情,但是对于Facebook通知。
编辑我有PHP抓取网站并在此处输出:http://colejohnsoncreative.com/personal/ai/worldnews.php这是我正在使用的代码:
<?php
// Get a file into an array. In this example we'll go through HTTP to get
// the HTML source of a URL.
$lines = file('http://www.reddit.com/r/worldnews');
// Loop through our array, show HTML source as HTML source; and line numbers too.
foreach ($lines as $line_num => $line) {
echo "Line #<b>{$line_num}</b> : " . htmlspecialchars($line) . "<br />\n";
}
// Another example, let's get a web page into a string. See also file_get_contents().
$html = implode('', file('http://www.example.com/'));
// Using the optional flags parameter since PHP 5
$trimmed = file('somefile.txt', FILE_IGNORE_NEW_LINES | FILE_SKIP_EMPTY_LINES);
?>
所以我得到了所有网站的代码输出,但我需要的所有项目都是
<a class="title " href="http://www.dailymail.co.uk/news/article-2219477/Cannabis-factory-couple-gave-400-000-drug-dealing-fortune-poor-Kenyans-jailed-years.html" >British couple who spent most of the money they made from canabis growing on paying for life changing operations and schooling for people in a poor Kenyan village gets sent to prison for 3 years.</a>
以及我需要扔掉的其他一切,我该怎么做?
答案 0 :(得分:0)
如果你在shell中,你可以 wget 页面
从php你可以 file_get_contents 页面
从java中你可以通过 URLConnection
获得它一旦拥有它,使用你想要的语言来查看你想要的页面文本,并用它做任何你喜欢的事情
答案 1 :(得分:0)
你必须做一些解析。所以匹配你想要的模式。最简单的方法是使用str_pos来获取元素的位置,或者使用正则表达式。 他们有RSS提要吗?如果是这样,你应该使用它。