我意识到,这在这里通常会问什么样的问题上有点超出范围,因此请原谅。我的任务是进行开放式技术筛选,以担任数据科学家。这是我的第一份工作,要求这样的事情,所以我想确保自己提交的工作真的很好。给了我一个数据集,并要求我识别问题以及如何使用机器学习解决问题,提供目标特征的统计信息,对数据数据进行预处理,对数据进行建模并解释结果。
我正在寻找有关我是否缺少任何重大结果的反馈。高水平的反馈很好。希望你们中的一些人是数据科学家,或者要么必须完成这样的技术筛选,要么必须进行审查,并且可以向正在崛起的数据科学家提供一些有价值的反馈。
谢谢!
答案 0 :(得分:1)
看看
火星快车挑战赛获取数据,建模和预测 火力消耗
此处https://kelvins.esa.int/mars-express-power-challenge/
大挑战是获取数据并预测轨道器的未来消耗量,以计划如何节省能源(在太阳能领域中存在过热的风险,而在太阳能夜晚则有变冷的风险)< / p>
团队使用不同的方法LSTM可能是我会选择的方法。但是获胜的团队对“特征工程和选择”进行了非常详细的解释。重点是,重要的不是所使用的工具,而是正确选择特征提取和选择。 https://arc.aiaa.org/doi/pdf/10.2514/6.2018-2561
我同时阅读了获奖论文和您的作品。真的,我更喜欢你的方式。 如您所见,您的方法论具有相当的可比性,但是他们将特征提取研究放在研究的中心。
您可以通过提供更多证据证明您选择了FE的正确方法来保护自己的工作。例如,您可以提供2种有限元分析方法,并比较该方法的结果,或者,您解释说您选择了一种了解该特定论文的最新技术,从而证明了bla ...
您可以添加ARIMA VAR VARMA和您自己的比较结果,以说明该领域在过去3年的“领先”和参考文献,以及最近在LSTM能源出版物上的其他参考文献消费预测。
您的文档突然结束,就像我们在常规论文中发现的那样,您将等待装饰性结论。
那。
(请不要考虑我的唯一见解,因为我不觉得自己是数据科学家:)我会为自己感到骄傲,因为我很想产生自己所做的一切;)感谢分享阅读)
答案 1 :(得分:1)
如果我是评估者,我会问类似的问题
1)研究/业务问题是什么? 建议:通过明确指定问题开始报告
2)现有哪些解决方案可以解决该问题? 建议:对现有解决类似问题的方法及其结果进行简要的文献综述,最好以表格形式。
3)简要阐述数据的描述性和多元性。 建议:在数据上添加描述性和推论统计,包括一些可以从变量相关性得出的初步假设。
4)您为什么选择这种特殊方法来解决问题? 建议:给出定量的假设示例解决方案作为后盾的可信理由,这些方法支持所提出的方法。
5)如果是分类任务,我会问一个问题,例如“模型的基准精度是多少?”如果是群集任务,则“群集纯度的基准是什么?” 建议:从目标变量分布中找到这种准确性。
最后,您需要了解为什么要问这样一个开放性问题。可能有两种可能性;
(a)这家公司是数据科学领域的新兴公司,不确定他们在寻找什么,这意味着他们既没有评估候选人技能所需的专业知识,也只是不确定他们的要求是什么。如果是这样,那么必须使报告尽可能简单和详细。远离扔行话。
OR
(b)该公司在数据科学方面经验丰富,这是一项过滤测试。为了过滤掉自称是数据科学家的nincompoops,他们认为将一些现成的解决方案步骤(如预处理,降维,建模)链接在一起可以解决问题。潜在的想法是弄清楚候选人的分析能力。
因此,请明智地撰写报告,并确保没有任何伪造。
好运。