我正在处理大量数据,有时候我会忘记几个月前我做了什么,以获得我正在阅读的结果。而且由于我需要处理的大量内容,编写注释块来记录所有内容是不可行的。
我现在接近它的方法是为我想要处理的数据创建类,然后创建存储信息的类属性,例如已经使用哪些数据文件来编译这个结果(代码逻辑仍在其中的注释中)产生结果的代码)。
在这种情况下,一个例子是:我从一组文本导入数据。因此,对于每个文本,我希望保留诸如日期写作,作者等信息。在我的情况下,我使用泡菜存储所有内容。
我有大约100个文本,我想以一种使用来自所有不同文本的数据的方式对文本集合进行一些处理。例如,我想为某些年份编写的文本创建数据。或者,我可能只想检查某个作者或一组文本等的数据。因此,我最终得到的处理数据可能来自不同的功能,包含来自全世界的文本。因此,我不会手动识别要包含的文本(错误界限),而是转到包含所有文本的目录,并运行一个打开pickle的循环,检查'元数据'是否满足某些条件,将数据添加到我的结果如果是这样。然后获取新的结果pickle以包含它自己的“元数据”供我在需要时再次参考。
我的问题是,在采取这种方法时,我应该注意哪些陷阱?是否有更好的方法来做这样的事情?
编辑:添加了一个示例。