我正在进行一次性数据分析练习(使用Python)。演习的各个阶段如下:
我希望这是可重复的,因为它将与研究论文一起发布。
我已按如下方式构建代码:
main.py
transform.py
scrape_site1.py
scrape_site2.py
analysis.py
两个ScrapeSite
类看起来像这样(在伪代码中):
Read CSV file
Use information to find page to scrape
Scrape page
Store data from page into CSV file
然后main
看起来像这样:
from transform import XMLTransform
from scrape_site1 import ScrapeSite1
from scrape_site2 import ScrapeSite2
from analysis import Analysis
if __name__ == "__main__":
# Extract information on each study from the Cochrane XML files.
ct_transform = XMLTransform()
ct_transform.parse_data_to_csv(data_directory='data',
output_csv='temp1.csv')
site1_scaper = ScrapeSite1()
site1_scaper.read_csv_file(input_csv='temp1.csv', output_csv='temp2.csv')
site2_scaper = ScrapeSite2()
site2_scaper.read_csv_file(input_csv='temp2.csv', output_csv='intermediate.csv')
analysis = Analysis()
analysis.read_csv_file(input_csv='intermediate.csv', output_csv='final.csv')
但这感觉有点笨拙 - 有没有比保存临时CSV文件更好的办法呢?
我认为使用数据库会有点过分。
也许没关系,但我只是想知道我是否有更时尚的做事方式。