google-groups rss feed已截断描述

时间:2017-08-28 09:02:50

标签: web-scraping rss google-groups

我试图分析我正在运行的Google论坛论坛的情绪。为了获得论坛内容,我开始了解两种方法:1。使用selenium从google-groups进行网页抓取,但这种方法不可靠,谷歌经常更改类名。 2.使用RSS feed。

第二种方法似乎是一个不错的选择,但问题是RSS Feed描述被截断了。有没有办法在没有截断的情况下获得完整的描述?或者有没有其他方法来获取公共谷歌群组的内容?

1 个答案:

答案 0 :(得分:0)

对于那些面临类似问题的人 - 抓取Google群组内容,我遇到了一个名为gg_scraper 0.10.0的python pkg,由“MatějCepl”编写,将google群组内容下载到MBOX文件中。我后来将这些MBOX文件转换为JSON格式的文件供我使用。