刮网站 - 在线或离线数据处理更好

时间:2014-08-27 03:14:28

标签: python excel

我正在使用Python Beautifulsoup抓取研究项目的网站。 我已经删除了几千条记录并将它们放入excel中。

本质上,我想提取一个文本的子串(例如" python"来自标题后" python介绍为假人")。 后标题被抓取并存储在excel的单元格中。 我想提取" pyhon"把它放在另一个牢房里。

我需要一些建议,如果最好在抓取时进行提取或在excel中离线进行。 由于这是研究项目,因此不需要实时速度。我正在考虑省力。

另一个相关的问题是,如果可以使用python在离线模式下进行提取 - 即打开excel,进行提取,关闭excel。

非常感谢任何帮助或建议。

1 个答案:

答案 0 :(得分:0)

同时做。它可能只需要一些代码行。没有理由做两次遍历整个文件的工作。