RSS源中的奇怪链接

时间:2014-06-08 19:45:51

标签: python rss

我正在尝试在python中制作RSS feed scraper,并且有 发现xml文件的内容有点连线了 例如:

Pour leur dernier match de pr\xe9paration, les Bleus affrontent les Jama\xefcains au stade Pierre-Mauroy de Lille.<img border="0" height="1" src="http://rss.lemonde.fr/c/205/f/3050/s/3b4a3f60/sc/3/mf.gif" width="1" /><br clear="all" /><br /><br /><a href="http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/rc/1/rc.htm" rel="nofollow"><img border="0" src="http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/rc/1/rc.img" /></a><br /><a href="http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/rc/2/rc.htm" rel="nofollow"><img border="0" src="http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/rc/2/rc.img" /></a><br /><a href="http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/rc/3/rc.htm" rel="nofollow"><img border="0" src="http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/rc/3/rc.img" /></a><br /><br /><a href="http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/a2.htm"><img border="0" src="http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/a2.img" /></a><img border="0" height="1" src="http://pi.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/a2t.img" width="1" />

这是Le Monde报纸的RSS提要中的一个条目,它包含 一些奇怪的链接:

http://rss.lemonde.fr/c/205/f/3050/s/3b4a3f60/sc/3/mf.gif
http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/rc/1/rc.htm
http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/rc/1/rc.img
http://da.feedsportal.com/r/199106763945/u/57/f/3050/c/205/s/3b4a3f60/sc/3/rc/2/rc.htm
...

大多数都是空白或完全无法访问。 他们的目的是什么?

有时我在访问这些链接时也会收到此消息:

  

很遗憾,我们无法显示请求的链接,对不起   不方便。可能的原因是链接已过期或   您正在使用其浏览器引擎不同的Feed阅读器   PC上的默认浏览器,例如您正在使用Microsoft产品   (比如Outlook)阅读Feed,但你已将Firefox设置为   默认浏览器。如果更改默认浏览器(在此示例中)   将其更改为Microsoft的Internet Explorer)您将能够关注   链接。

这是无稽之谈,因为我在Linux上使用firefox,它是默认的浏览器。

供稿链接:http://www.lemonde.fr/rss/une.xml

1 个答案:

答案 0 :(得分:0)

如果没有实际的Feed网址,我无法详细解答,但很可能会将Feed广告项目添加到Feed以进行跟踪。 <img>标记会计算加载给定Feed的次数,而html链接可能会用于计算点击次数并跟踪访问者...