得到没有的RSS

时间:2010-09-21 04:08:50

标签: php sql xml rss yql

很抱歉,我们来的时候标题很长,也许有点令人困惑。我正在询问有关如何从默认情况下未启用RSS的页面获取RSS源的建议或指导。但这不是问题本身。问题是在该页面上我被要求输入用户名和密码。那么不然就是......

问题:

获取未启用RSS源的论坛的RSS,并查看我们需要记录的“新闻”。

浮现在脑海中的

可能的解决方案

  1. 有几个网站提供英文服务,以便在不是的网页上获取RSS。这很好,但问题是当这些网站没有提供使用用户名和密码登录我想要获取信息的网页的选项时,所以这些类型的网站被排除在外。
  2. 我没有通过网址登录,所以直接从网址规范www.forosinrss/login.php?usuario = me & password = your pff将用户名和密码变量放在论坛上面列出的网站(第1项)上的网址,我就会在论坛上退回告诉我,我没有得到正确的数据。另一个问题是密码是md5加密的,因此我无法使用URL登录(fk T_T)。
  3. 尝试使用“SELECT * FROM DB Internet”,换句话说,使用YQL。但它几乎与他们发现没有办法插入并登录用户和密码以及为论坛生成cookie而感到高兴我投了票。
  4. 我需要建议,建议,提示或投诉。

2 个答案:

答案 0 :(得分:0)

如果您感觉很勇敢,请使用cURL或fsockopen等页面下载页面,然后使用XSLT Stylesheets将页面从html转换为rss。

答案 1 :(得分:0)

曾几何时我用PHP编写了一个应用程序,用ok-ish结果执行此操作:

  • 使用curl获取页面并保留副本
  • 运行自定义过滤器正则表达式,以选择实际重要的页面位(某些网站具有广告等动态文字或仅显示当前日期和时间)
  • 超时后,使用curl再次获取页面并在其上运行相同的过滤器
  • 运行diff old_page,new_page并将结果通过管道传输到rss模板

该系统工作正常,但是将网页过滤到我希望从中获取Feed的内容,并且它已经破坏了很多,因为这些类型的网站经常被手工编辑,因此您无法保证任何一致性。