数据科学和机器学习项目中文件的正确命名约定是什么?
我相信Python类的文件名应为名词。但是,我想明确指出是将类命名为主题名词还是宾语名词。
我应该使用其中哪些?
1)输出绘图的类。
visualization.py
,visualizer.py
,vis.py
或...
2)用于分析数据集并输出包含结果的文件的类。
analysis.py
,analyzer.py
或...
3)将数据集隐藏为修补文件的类。
preprocessor.py
,preprocessing.py
,prepare.py
或...
(我检查了PEP8,但找不到文件名的明确命名转换)
答案 0 :(得分:2)
在PEP-8命名约定部分中,您将找到正确的方法。
在pep-8中还讨论了命名约定不明确的问题。
因此,如果您想要一种正确的方法(另一组织遵循的方法),请转到GitHub(例如tensorflow),了解他们如何维护所维护项目的命名约定。
您可以按照此处的结构开始进行项目。
没有固定的内容。这完全取决于您要如何构造它。它应该更好,易于阅读和维护。
答案 1 :(得分:2)
主要取决于所使用的数据类型或采样类型,或特定类文件的结果是什么 下面是示例,可能对结构和命名很有帮助。 https://github.com/uwescience/shablona
数据集的文件命名约定
最佳做法是名称具有描述性-它们反映了文件的内容。保持一致–对项目中的所有文件(包括数据集文件和zip或tar文件)使用相同的格式。建议的一些属性包括:
唯一标识符或项目名称/缩写 PI 位置/空间坐标 学习年份 数据类型 版本号 文件类型 最多使用32个字符。仅使用数字,字母和下划线。请勿使用特殊字符,破折号,空格或多个点或停止点。避免使用通用术语(“数据”,“样本”,“最终”或“修订”)。使用一致的大小写–全部为小写,或全部为大写,或全部为小写。日期应采用标准格式YYYYMMDD,以便按时间顺序进行排序。
顺序编号应允许增长,并包括前导零。您有100个档案吗?编号应从001到100。