数据科学项目的Python文件命名约定

时间:2019-03-14 11:56:53

标签: python naming-conventions data-science

数据科学和机器学习项目中文件的正确命名约定是什么?

我相信Python类的文件名应为名词。但是,我想明确指出是将类命名为主题名词还是宾语名词。

我应该使用其中哪些?

1)输出绘图的类。

visualization.pyvisualizer.pyvis.py或...

2)用于分析数据集并输出包含结果的文件的类。

analysis.pyanalyzer.py或...

3)将数据集隐藏为修补文件的类。

preprocessor.pypreprocessing.pyprepare.py或...

(我检查了PEP8,但找不到文件名的明确命名转换)

2 个答案:

答案 0 :(得分:2)

PEP-8命名约定部分中,您将找到正确的方法。

在pep-8中还讨论了命名约定不明确的问题。

因此,如果您想要一种正确的方法(另一组织遵循的方法),请转到GitHub(例如tensorflow),了解他们如何维护所维护项目的命名约定。

您可以按照此处的结构开始进行项目。

没有固定的内容。这完全取决于您要如何构造它。它应该更好,易于阅读和维护。

答案 1 :(得分:2)

主要取决于所使用的数据类型或采样类型,或特定类文件的结果是什么 下面是示例,可能对结构和命名很有帮助。 https://github.com/uwescience/shablona

数据集的文件命名约定

最佳做法是名称具有描述性-它们反映了文件的内容。保持一致–对项目中的所有文件(包括数据集文件和zip或tar文件)使用相同的格式。建议的一些属性包括:

唯一标识符或项目名称/缩写 PI 位置/空间坐标 学习年份 数据类型 版本号 文件类型 最多使用32个字符。仅使用数字,字母和下划线。请勿使用特殊字符,破折号,空格或多个点或停止点。避免使用通用术语(“数据”,“样本”,“最终”或“修订”)。使用一致的大小写–全部为小写,或全部为大写,或全部为小写。日期应采用标准格式YYYYMMDD,以便按时间顺序进行排序。

顺序编号应允许增长,并包括前导零。您有100个档案吗?编号应从001到100。