
时间:2018-06-21 10:38:19

最近几天,我花了很多时间来学习如何构建数据科学项目,以使其保持简单,可重用和pythonic。坚持this guideline,我创建了my_project。您可以在下面看到它的结构。

├── README.md          
├── data
│   ├── processed          <-- data files
│   └── raw                            
├── notebooks  
|   └── notebook_1                             
├── setup.py              
├── settings.py            <-- settings file   
└── src                
    ├── __init__.py    
    └── data           
        └── get_data.py    <-- script  


def data_sample(code=None):
    df = pd.read_parquet('../../data/processed/my_data')
    if not code:
        code = random.choice(df.code.unique())
    df = df[df.code == code].sort_values('Date')
    return df

很明显,除非我直接在定义该脚本的脚本中运行它,否则该函数将无法在任何地方使用。 我的想法是在要声明的地方创建settings.py

from os.path import join, dirname

DATA_DIR = join(dirname(__file__), 'data', 'processed')


from my_project import settings
import os

def data_sample(code=None):
    file_path = os.path.join(settings.DATA_DIR, 'my_data')
    df = pd.read_parquet(file_path)
    if not code:
        code = random.choice(df.code.unique())
    df = df[df.code == code].sort_values('Date')
    return df


  1. 这是通常的方式以这种方式引用文件吗? settings.DATA_DIR看起来很丑。

  2. 这到底是应该如何使用settings.py?并将其放置在此目录中吗?我在.samr/settings.py下的repo

  3. 的不同位置看到了它


只要您不提交大量数据,并且可以弄清不受控制的外部环境快照和您自己的派生数据(代码+ {raw)==状态之间的区别。有时使用仅追加ish raw并考虑诸如raw/interesting_source/2018.csv.gz -> raw_appendonly/interesting_source/2018.csv.gz.20180401T12:34:01之类的符号链接步骤或一些类似的模式来建立“使用最新的”输入结构是有用的。尝试明确区分可能需要根据env进行更改的配置设置(my_project/__init__.pyconfig.pysettings.py或其他任何内容)(设想将fs换成blobstore或其他内容)。 setup.py通常位于最高级别my_project/setup.py中,并且位于my_project/my_project中与可运行内容(不是文档,示例不确定)相关的任何内容。在一个地方(_mydir = os.path.dirname(os.path.realpath(__file__)))中定义一个config.py,并以此为依据避免痛苦。

否,只有在使用Django的情况下,才可以使用settings.py。至于以这种方式引用数据目录,取决于您是否希望用户能够更改此值。设置它来更改值的方式需要编辑settings.py文件。如果您希望用户拥有默认值,但又希望他们在使用函数时可以轻松更改它,则只需内联创建基本路径值,然后在def data_sample(...,datadir = filepath):.中将其设为默认值即可。 / p>

我正在维护一个基于DataDriven Cookiecutter的经济学数据项目,我认为这是一个很好的模板。





# shorter version 
ROOT = Path(__file__).parents[3]

# longer version
def find_repo_root():
    """Returns root folder for repository.
    Current file is assumed to be:
        <repo_root>/src/kep/helper/<this file>.py
    levels_up = 3
    return Path(__file__).parents[levels_up]

ROOT = find_repo_root()
DATA_FOLDER = ROOT / 'data' 
UNPACK_RAR_EXE = str(ROOT / 'bin' / 'UnRAR.exe')
XL_PATH = str(ROOT / 'output' / 'kep.xlsx')

这类似于您对DATA_DIR所做的操作。一个可能的弱点是我在这里 手动对助手文件相对于项目根目录的相对位置进行硬编码。如果帮助文件位置已移动,则需要对其进行调整。但是,嘿,这与Django中的操作相同。



def interim(filename):
    """Return path for *filename* in 'data/interim folder'."""
    return str(ROOT / 'data' / 'interim' / filename)

在我的项目中,我有interimprocessed目录的年月子文件夹,并且按年,月,有时还按频率寻址数据。对于这种数据结构,我有 提供参考特定路径的InterimCSVProcessedCSV类,例如:

from . helper import ProcessedCSV, InterimCSV
 # somewhere in code
 csv_text = InterimCSV(self.year, self.month).text()
 # later in code
 path = ProcessedCSV(2018,4).path(freq='q')

辅助程序is here的代码。另外,这些类会创建子文件夹(如果不存在)(我希望在临时目录中进行子测试),并且有一些方法可以检查文件是否存在以及读取其内容。

在您的示例中,您可以轻松地将根目录固定在setting.py中, 但我认为您可以进一步抽象数据。


# keep this in setting.py
def processed(filename):
   return os.path.join(DATA_DIR, filename)

# this works on a dataframe - your argument is a dataframe,
# and you return a dataframe
def transform_sample(df: pd.DataFrame, code=None) -> pd.DataFrame:
    # FIXME: what is `code`?
    if not code:
        code = random.choice(df.code.unique())
    return df[df.code == code].sort_values('Date')

# make a small but elegant pipeline of data transfomation
file_path = processed('my_data')
df0 = pd.read_parquet(file_path)
df = transform_sample(df0)

答案 3 :(得分:0)

with open('Test.txt','r') as f:

,然后使用f=open('Test.txt','r') 来引用文件。 如果您希望文件可读写,则可以使用f代替r+