`pandas`设置

Question

在以下数据中，我试图运行一个简单的马尔可夫模型。

假设我的数据具有以下结构：

pos   M1  M2  M3  M4  M5  M6  M7  M8  hybrid_block    S1    S2    S3    S4  S5  S6  S7  S8
1     A   T   T   A   A   G   A   C       A|C         C     G     C     T    T   A   G   A
2     T   G   C   T   G   T   T   G       T|A         A     T     A     T    C   A   A   T
3     C   A   A   C   A   G   T   C       C|G         G     A     C     G    C   G   C   G
4     G   T   G   T   A   T   C   T       G|T         C     T     T     T    A   T   C   T

阻止M 表示来自一组catergories的数据，阻止S 也是如此。

数据是strings，它是通过沿着位置线连接字母而形成的。因此，M1的字符串值是A-T-C-G ，每隔一个块也是如此。

还有一个hybrid block有两个字符串，以相同的方式读取。 问题是我想找到混合块中哪个字符串最有可能来自哪个块（M对S）？

我正在尝试构建一个markov模型，它可以帮助我识别hybrid block中哪个字符串来自哪个块。在这个例子中，我可以看出混合块 ATCG来自block M而CAGT来自block S。

我将问题分解为不同的部分来阅读和挖掘数据：

问题级别01：

首先，我阅读第一行（标题）并为所有列创建unique keys。
然后我阅读第二行（pos，其值 1 ）并创建另一个键。在同一行中，我从hybrid_block读取值并读取其中的字符串值。 pipe |只是一个分隔符，因此index 0 and 2中有两个字符串A和C。所以，我想从这一行得到的只是一个

defaultdict(<class 'dict'>, {'M1': ['A'], 'M2': ['T'], 'M3': ['T']...., 'hybrid_block': ['A'], ['C']...}

因为，我在阅读这一行的过程中，我想从每一列追加字符串值，最后创建。

defaultdict(<class 'dict'>, {'M1': ['A', 'T', 'C', 'G'], 'M2': ['T', 'G', 'A', 'T'], 'M3': ['T', 'C', 'A', 'G']...., 'hybrid_block': ['A', 'T', 'C', 'G'], ['C', 'A', 'G', 'T']...}

问题级别02：

我在hybrid_block中读取了A and C第一行的数据。
现在，我想创建keys' but unlike fixed keys, these key will be generated while reading the data from hybrid_blocks . For the first line since there are no preceding line the键will simply be AgA and CgC which means (A given A, and C given C), and for the values I count the number of A in块M { {1}}阻止S`。因此，数据将存储为：

and

因为，我读了其他行，我想根据defaultdict(<class 'dict'>, {'M': {'AgA': [4], 'CgC': [1]}, 'S': {'AgA': 2, 'CgC': 2}}中的字符串创建新密钥，并计算hybrid block块中字符串出现的次数给定前面的字符串线。这意味着M vs S在此行中keys为line 2时，在前一行TgA' which means (T given A) and AgC. For the values inside this key I count the number of times I found AcG`中的A之后。

阅读3行后的and same for将是。

defaultdict

我明白这看起来太复杂了。我经历了几个defaultdict(<class 'dict'>, {'M': {'AgA': 4, 'TgA':3, 'CgT':2}, {'CgC': [1], 'AgC':0, 'GgA':0}, 'S': {'AgA': 2, 'TgA':1, 'CgT':0}, {'CgC': 2, 'AgC':2, 'GgA':2}}和dictionary教程，但找不到这样做的方法。

任何部分的解决方案（如果不是两者）都受到高度赞赏。

Answer 1

`pandas`设置

from io import StringIO
import pandas as pd
import numpy as np

txt = """pos   M1  M2  M3  M4  M5  M6  M7  M8  hybrid_block    S1    S2    S3    S4  S5  S6  S7  S8
1     A   T   T   A   A   G   A   C       A|C         C     G     C     T    T   A   G   A
2     T   G   C   T   G   T   T   G       T|A         A     T     A     T    C   A   A   T
3     C   A   A   C   A   G   T   C       C|G         G     A     C     G    C   G   C   G
4     G   T   G   T   A   T   C   T       G|T         C     T     T     T    A   T   C   T """

df = pd.read_csv(StringIO(txt), delim_whitespace=True, index_col='pos')

df

溶液

主要是`pandas`，其中`numpy`

拆分混合列
前置相同的第一行
添加自定义版本的self以获取'AgA'类型字符串

d1 = pd.concat([df.loc[[1]].rename(index={1: 0}), df])

d1 = pd.concat([
        df.filter(like='M'),
        df.hybrid_block.str.split('|', expand=True).rename(columns='H{}'.format),
        df.filter(like='S')
    ], axis=1)

d1 = pd.concat([d1.loc[[1]].rename(index={1: 0}), d1])
d1 = d1.add('g').add(d1.shift()).dropna()

d1

将方便的块分配给它们自己的变量名称

m = d1.filter(like='M')
s = d1.filter(like='S')
h = d1.filter(like='H')

计算每个块中的数量并连接

mcounts = pd.DataFrame(
    (m.values[:, :, None] == h.values[:, None, :]).sum(1),
    h.index, h.columns
)
scounts = pd.DataFrame(
    (s.values[:, :, None] == h.values[:, None, :]).sum(1),
    h.index, h.columns
)

counts = pd.concat([mcounts, scounts], axis=1, keys=['M', 'S'])
counts

如果你真的想要一本字典

d = defaultdict(lambda:defaultdict(list))

dict_df = counts.stack().join(h.stack().rename('condition')).unstack()
for pos, row in dict_df.iterrows():
    d['M']['H0'].append((row.loc[('condition', 'H0')], row.loc[('M', 'H0')]))
    d['S']['H0'].append((row.loc[('condition', 'H0')], row.loc[('S', 'H0')]))
    d['M']['H1'].append((row.loc[('condition', 'H1')], row.loc[('M', 'H1')]))
    d['S']['H1'].append((row.loc[('condition', 'H1')], row.loc[('S', 'H1')]))

dict(d)

{'M': defaultdict(list,
             {'H0': [('AgA', 4), ('TgA', 3), ('CgT', 2), ('GgC', 1)],
              'H1': [('CgC', 1), ('AgC', 0), ('GgA', 0), ('TgG', 1)]}),
 'S': defaultdict(list,
             {'H0': [('AgA', 2), ('TgA', 1), ('CgT', 0), ('GgC', 0)],
              'H1': [('CgC', 2), ('AgC', 2), ('GgA', 2), ('TgG', 3)]})}

如何从文件中读取两行并在for循环中创建动态键？

1 个答案:

`pandas`设置

溶液

主要是`pandas`，其中`numpy`

如何从文件中读取两行并在for循环中创建动态键？

1 个答案:

pandas设置

溶液

主要是pandas，其中numpy

`pandas`设置

主要是`pandas`，其中`numpy`