如何将python数据分析代码分解为模块?

时间:2017-08-08 16:29:06

标签: python analytics data-analysis data-science

我是一名商业智能分析师,从使用python进行数据分析开始。

我正处于编制营销分析应用程序供内部使用(营销分析师)的早期阶段,而无需使用MS Excel进行计算。

主要目标是:

  1. 提示要求选择原始文件

  2. 阅读csv / xlsx数据

  3. 清理(删除空值,删除总行数,格式化数字和日期等)

  4. 转换(创建每千次点击费用等指标     每个渠道中的展示次数,每次销售线索,广告支出回报率     Facebook,youtube,谷歌搜索等)

  5. 分析(通过频道突出显示最佳和最差表现,类型     目标,网址等)加载(​​在屏幕上打印并在xlsx上写入     文件)

  6. 目前我已将项目分为两个文件: main.py (主要功能和打印)和 data_prep.py (与数据清理和转换相关的功能)

    我认为必须有一个框架或某种模式以逻辑和有组织的方式打破文件,我想在早期阶段应用它,以避免返工并构建更可靠和易于维护的应用程序。

    PS:在这个帖子中,我关注的是文件/目录结构,而不是我需要使用的库。

1 个答案:

答案 0 :(得分:0)

只要文件位置一致(共享文件夹,群集文件夹,Web服务API派生位置),我认为没有一种“最佳”方式来组织文件或目录。明确标签,您应该能够将所有数据集中在一个地方。文件结构如:

/Marketing/Analysis/dev/
  ./source <- for csv files to be kept
  ./prog <- for your .py files (actual code)
  ./result <- output from your process
  ./notes <- for anything non-functional (ie, release notes or project requests)

您的代码是否有藏匿或bitbucket回购?如果是这样,请将其用于临时工作,并仅将当前代码保留在./prog。

如果您正在使用GoogleAnalytics,您可能想尝试直接从Python调用API调用,而不是将csv文件下载到./source。它只会将变量数量减少一个。