我正在尝试建立一个模型来训练nii格式的图像。我可以使用nibabel库从本地文件系统读取文件。但是我找不到任何合适的库来使用pyspark从hdfs中读取nii文件。我也尝试使用spark二进制进行阅读。没有一种技术效果很好。
我可以使用nibabel库从本地文件系统中读取文件,但是我找不到使用pyspark从hdfs中读取nii文件的适当库。我还尝试使用spark二进制文件进行读取。我还尝试复制到对象并作为对象读取。
这是我如何读取JPG图像进行训练的代码。类似地,我需要读取nii文件。
from sparkdl import readImages
from pyspark.sql.functions import lit
img_dir = "MRI_dataset"
AD_df = readImages(img_dir + "/ADTest").withColumn("label", lit(1))
HO_df = readImages(img_dir + "/HOTest").withColumn("label", lit(0))
MCI_df = readImages(img_dir + "/MCITest").withColumn("label", lit(2))
train_df,test_df = (AD_df.unionAll(HO_df)).unionAll(MCI_df).randomSplit([0.6, 0.4], seed = 42)
train_df = train_df.repartition(100)
test_df = test_df.repartition(100)