我需要以编程方式确定RSS源是否公开其文章的完整内容或仅提取它们。你会怎么做?
答案 0 :(得分:6)
在末尾查找“更多”,“续”,“完整文章”,“...”或类似内容的链接。除非您想要关注页面上的每个链接,否则可能会从Feed中添加额外的文本。
答案 1 :(得分:4)
我认为这样做并不是很干净,但这里有两个“hacky”:
我会解析RSS的文本,并查找其中的任何链接。当然,那里可能有多个链接(一些链接到其他博客),但是如果你专注于最后一个,并尝试为链接的标题提出一些启发式的话(即“更多”,“阅读全部“等等,你应该可以得到很多。为了更有信心,您只能查看指向原始博客的链接。
更严格的方法会让您关注所有链接并尝试比较RSS片段是否是返回页面的子集,或者是否存在实质性重叠。这可能无助于网站使用真正的摘要而不是完整帖子的片段。
答案 2 :(得分:0)
为什么不关注rss-feed中的url并检查此页面上的文本是否多于rss-feed中的文本?您需要使用html-parser并输入一些通用规则。