如何从论坛帖子中获取数据?

时间:2011-09-25 02:13:49

标签: php curl web-scraping extract

我从Curl / php开始,我真的很享受它能做的事情。虽然,我已经被封锁了几天,我真的需要帮助。

由于txt文件,我需要使用其他脚本来获取和处理一些特殊的数据。

数据是我的论坛上发布的代理,该会员同意在与论坛相关的外部网站上发布。

代理人是这种形式

107.2.178.129:47535<br/>173.174.251.89:18785<br/>173.48.224.237:1807<br/>and so on ... 

我需要将它们放在一个文本文件中,每行一个代理。

这是我到目前为止所拥有的

<?php


$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, 'http://www.external-site.com/Members/Login.php');

curl_setopt ($ch, CURLOPT_POST, 1);

curl_setopt ($ch, CURLOPT_POSTFIELDS,
'fieldname1=fieldvalue1&fieldname2=fieldvalue2');

curl_setopt ($ch, CURLOPT_COOKIEJAR, 'cookie.txt');

curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);

$store = curl_exec ($ch);

curl_setopt($ch, CURLOPT_URL,
'http://www.external-site.com/index.cgi?action=display&thread=26');

$content = curl_exec ($ch);

curl_close ($ch); 

?>

之后我被困住了。

1 个答案:

答案 0 :(得分:3)

所以你得到了论坛帖子文字?假设$content有效:

file_put_contents('proxies.txt', implode('\n', explode('<br/>', $content)));

在Linux上使用\n,在Windows上使用\r\n