我正在为Deepchem模型使用GraphConvolution包装器,如下所示。我在.csv
中有我的微笑数据,该数据由5个分子组成,具有微笑表示和各自的活动。可以直接从here访问数据。
导入库:
from __future__ import division
from __future__ import print_function
from __future__ import unicode_literals
import numpy as np
import tensorflow as tf
import deepchem as dc
from deepchem.models.tensorgraph.models.graph_models import GraphConvModel
加载数据并对其进行特征化,使其适合图卷积。
graph_featurizer = dc.feat.graph_features.ConvMolFeaturizer()
loader_train = dc.data.data_loader.CSVLoader( tasks=['Activity'], smiles_field="smiles",featurizer=graph_featurizer)
dataset_train = loader_train.featurize( './train_smiles_data.csv')
分析已加载和特征化的数据(我的尝试)
dataset_train.X
array([<deepchem.feat.mol_graphs.ConvMol object at 0x7f8bfc3ad748>,
<deepchem.feat.mol_graphs.ConvMol object at 0x7f8bfc367828>,
<deepchem.feat.mol_graphs.ConvMol object at 0x7f8bfc367208>,
<deepchem.feat.mol_graphs.ConvMol object at 0x7f8bfc369c50>],
dtype=object)
dataset_train.y
array([[2.71],
[4.41],
[3.77],
[4.2 ]])
for x, y, w, id in dataset_train.itersamples():
print(x, y, w, id)
<deepchem.feat.mol_graphs.ConvMol object at 0x7f8bfc3ad6a0> [2.71] [1.] CC1=C(O)C=CC=C1
<deepchem.feat.mol_graphs.ConvMol object at 0x7f8bfc30f518> [4.41] [1.] [O-][N+](=O)C1=CC=C(Br)S1
<deepchem.feat.mol_graphs.ConvMol object at 0x7f8bfc30f748> [3.77] [1.] CCC/C=C/C=O
<deepchem.feat.mol_graphs.ConvMol object at 0x7f8bfc30f940> [4.2] [1.] CCCCCC1=CC=CS1
我想要什么?
从上面的代码看来,dataset_train.X
给出了diskobject
之类的<deepchem.feat.mol_graphs.ConvMol object at 0x7f8bfc3ad6a0>
,而不是numpy array
之类的dataset_train.y
。
我怎么知道dataset_train.X
中存储了什么类型的数据?如何查看存储在dataset_train.X
中的数据?换句话说,如何将dataset_train.X
转换成可以检查其中数据的格式?
我相信应该有一些方法可以做到这一点。
答案 0 :(得分:1)
根据您的previous question dataset_train.X是ConvMol对象的数组。这些ConvMol对象是每个输入分子的特征的容器。这些特征没有像您的目标“ train_dataset.y”那样被表示,因为它们是更复杂的图形特征。再次查看ConvMol对象的source code和ConvMolFeaturizer的source code。然后,您可以确定如何解释这些功能:
# Inspect features for molecule 0
conv_feature = dataset_train.X[0]
# Print the atom features
print(conv_feature.get_atom_features())
# Print the adjacency list
print(conv_feature.get_adjancency_list())