存储已删除的HTML以便重新解析的正确方法?

时间:2018-01-27 18:13:17

标签: python json postgresql

我正在抓取大量页面并将源存储在Postgres数据库中,然后确定要解析的信息位,并使用Postgres自己的正则表达式(超快速)或使用Python和BeautifulSoup逐行解析,这可能更“适当”但更慢,更慢。

我想知道是否应该将源转换为JSON并存储在JSONB字段中。似乎更快,因为所有JSON都可以编入索引......我错了吗?或者可能切换到MongoDB?我只是觉得必须有更快的方法。为了论证的目的,我们假设我无法事先确定需要解析的所有数据。建议?

0 个答案:

没有答案