使用feedparser读取rss提要,例如业务内幕人员在此网址:
businessinsider.com/rss
python3中的feedparser似乎正确处理了rss feed中每个条目的一些属性,“转换”其他条目,并忽略/删除其他条目。我没有最微妙的想法。
似乎正确处理: 标题(有道理) 链接(有道理) ......还要妥善处理其他一些有意义的attr,即“在饲料中”。好的,很棒...
但它完全缺失: 描述 ...有没有理由忽略/删除/隐藏Feed中的attr?为什么呢?
然后它将'phantom'字段填充为以下属性: '摘要', 'summary_detail', ...和别的。它是否正在从Feed中的描述到幕后某些合成摘要字段进行某种转换?有没有理由隐藏/删除/忽略/错误描述?
我试过阅读文档但无法找到解释。是否是某种设置或参数我传递给feedparser,或者它作为一个功能自动执行,或者......我很困惑
感谢
答案 0 :(得分:0)
我认为feedparser文档确实找到了我的问题的答案。在这个页面:
https://pythonhosted.org/feedparser/reference-entry-summary.html
它说:
entries [i] summary
Comes from
/atom10:feed/atom10:entry/atom10:summary
/atom03:feed/atom03:entry/atom03:summary
/rss/channel/item/description
/rss/channel/item/dc:description
/rdf:RDF/rdf:item/rdf:description
/rdf:RDF/rdf:item/dc:description
所以我猜这就是全部。在我发布的Feed中,summary属性确实是rss / channel / item / description字段。
现在我必须阅读有关消毒的内容,bc我会认为它只是通过文本而不是html,一旦feedparser消化它......但这是一个单独的问题,我想...... / p>