答案 0 :(得分:0)
我相信你所指的过程是one-hot encoding。您首先要使用宽度为3的滑动窗口将DNA序列转换为3bp单词序列。请参阅此处:Generate a list of strings with a sliding window using itertools, yield, and iter() in Python 2.7.1?
所以你应该有类似DNA“单词”的列表(例如Route::post('/task/delete/{task}', function (Task $task) {
// do something here
});
)然后你会想要将每个单词转换成一个向量。一种方法是使用一个热表示创建一个字典,其中的键对应于所有可能的单词和值。然后,您可以使用列表推导和字典查找将每个单词转换为相应的向量。这可能不是最有效的方法,但这是一个开始。 sklearn有OneHotEncoder,但它只适用于整数。
另见https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/