进行深度学习时能否使用来自不同来源的数据集

时间:2019-04-14 17:47:21

标签: deep-learning dataset distribution

简单地说,我想利用胸部X射线图像检测患者是否患有肺癌。

我在这里遇到的问题是: 我有来自3个不同来源的3个数据集,其中3个主题都是胸部X射线图像,假设所有其他医学特性也相同。 第一个数据集包含130例正常和癌症诊断患者的图像。 第二个数据集包含40例正常患者的图像 第三个数据集包含120例癌症患者的图像。

因此,我想结合来自3个不同来源的3个数据集来训练和评估我的模型。 我打算混合并重新整理所有数据,然后开始拆分为训练,验证和测试集。可以吗?

还有什么我应该注意的事情/特征吗?

1 个答案:

答案 0 :(得分:0)

据我所知,通常混合数据集并不是一件好事,尤其是当数据集彼此之间不太相似时。但是,对于您而言,您说的都是人肺的X射线图像。我们希望所有图像都非常相似,因此混合它们不会以不好的方式影响性能,但我想是以一种好的方式。

在深度学习领域,拥有大量数据总是好的。特别是大型神经网络需要大量数据。您的数据对我而言似乎较少。我建议您使用简单的网络。

简而言之,合并的所有图像是否有可能来自同一来源?也就是说,它们在总体上彼此相似,但仅在感染部位不同?如果是这样,请继续。

祝你好运