网页废弃论坛

时间:2016-06-28 07:39:54

标签: python web-scraping beautifulsoup

我关心的是如何存储数据我试图从论坛的某些线程中检索数据。我希望能够根据自己的需要绘制尽可能多的信息,因此我不希望将所有内容存储在一个严格的结构中;我希望能够尽可能多地使用信息(时区更活跃,每个用户更活跃的时区,多年来的关键词,海报中的点数等)。

我该怎么存储?上层节点为页面,下层为帖子的树?如何以易于阅读的方式存储该树?

*很简单,因为封装的格式我可以轻松导出到其他东西。

1 个答案:

答案 0 :(得分:-1)

我建议只将帖子(为什么你需要这些页面?)写入JSON,你可以在jsonb字段中保存在PostgreSQL中 - 它允许灵活地查询你的JSON。

稍后你会编写一个或多个脚本来迭代帖子,并做一些有用的事情,比如清理数据,规范化值,汇总统计数据等。

另见