我正在使用Python Beautifulsoup抓取研究项目的网站。 我已经删除了几千条记录并将它们放入excel中。
本质上,我想提取一个文本的子串(例如" python"来自标题后" python介绍为假人")。 后标题被抓取并存储在excel的单元格中。 我想提取" pyhon"把它放在另一个牢房里。
我需要一些建议,如果最好在抓取时进行提取或在excel中离线进行。 由于这是研究项目,因此不需要实时速度。我正在考虑省力。
另一个相关的问题是,如果可以使用python在离线模式下进行提取 - 即打开excel,进行提取,关闭excel。
非常感谢任何帮助或建议。
答案 0 :(得分:0)
同时做。它可能只需要一些代码行。没有理由做两次遍历整个文件的工作。