DNA序列成功能

时间:2017-10-09 12:55:17

标签: python bioinformatics dna-sequence

我有一个包含DNA序列的数据集,我想将它们转换为数字表示。如本文件所述:

DNA to Binary

  • 这个过程是什么(转换),我想搜索一下吗?
  • 如何在python中应用它?
  • 可以作为数据集输入对大型数组进行吗?

1 个答案:

答案 0 :(得分:0)

我相信你所指的过程是one-hot encoding。您首先要使用宽度为3的滑动窗口将DNA序列转换为3bp单词序列。请参阅此处:Generate a list of strings with a sliding window using itertools, yield, and iter() in Python 2.7.1?

所以你应该有类似DNA“单词”的列表(例如Route::post('/task/delete/{task}', function (Task $task) { // do something here }); )然后你会想要将每个单词转换成一个向量。一种方法是使用一个热表示创建一个字典,其中的键对应于所有可能的单词和值。然后,您可以使用列表推导和字典查找将每个单词转换为相应的向量。这可能不是最有效的方法,但这是一个开始。 sklearn有OneHotEncoder,但它只适用于整数。

另见https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/