我是一名商业智能分析师,从使用python进行数据分析开始。
我正处于编制营销分析应用程序供内部使用(营销分析师)的早期阶段,而无需使用MS Excel进行计算。
主要目标是:
提示要求选择原始文件
阅读csv / xlsx数据
清理(删除空值,删除总行数,格式化数字和日期等)
转换(创建每千次点击费用等指标 每个渠道中的展示次数,每次销售线索,广告支出回报率 Facebook,youtube,谷歌搜索等)
分析(通过频道突出显示最佳和最差表现,类型 目标,网址等)加载(在屏幕上打印并在xlsx上写入 文件)
目前我已将项目分为两个文件: main.py (主要功能和打印)和 data_prep.py (与数据清理和转换相关的功能)
我认为必须有一个框架或某种模式以逻辑和有组织的方式打破文件,我想在早期阶段应用它,以避免返工并构建更可靠和易于维护的应用程序。
PS:在这个帖子中,我关注的是文件/目录结构,而不是我需要使用的库。
答案 0 :(得分:0)
只要文件位置一致(共享文件夹,群集文件夹,Web服务API派生位置),我认为没有一种“最佳”方式来组织文件或目录。明确标签,您应该能够将所有数据集中在一个地方。文件结构如:
/Marketing/Analysis/dev/
./source <- for csv files to be kept
./prog <- for your .py files (actual code)
./result <- output from your process
./notes <- for anything non-functional (ie, release notes or project requests)
您的代码是否有藏匿或bitbucket回购?如果是这样,请将其用于临时工作,并仅将当前代码保留在./prog。
中如果您正在使用GoogleAnalytics,您可能想尝试直接从Python调用API调用,而不是将csv文件下载到./source。它只会将变量数量减少一个。