问题
例如,如果我想计算一列字符串中N
的数量,我该如何在每个单元格的Google Spreadsheets中执行此操作(即一次指向一个单元格的公式我可以拖下来)?
背景
我必须为名为TOMTOM **的程序确定一个阈值-min-overlap <integer>
,该程序比较小DNA图案的*** ***之间的相似性****,N
是对于字母A,C,G和T的任何线性组合的正则表达式。如果我能够了解我的DNA图案的非N长度的分布以帮助告知我正确的{{1 TOMTOM的值。
以下是一些真实的例子:
** TOMTOM是一种将DNA基序与已知基序数据库进行比较的工具。有关详细信息,请参阅here。
*** PWM代表位置权重矩阵:
位置权重矩阵(PWM)或类似PWM的模型被广泛使用 代表蛋白质的DNA结合偏好(Stormo,2000)。在这些 模型,矩阵用于表示TF结合位点(TFBS),具有 每个元素代表对整体绑定的贡献 来自相应位置的核苷酸的亲和力。固有的 传统PWM模型的假设是位置独立性;那 是,TFBS中不同核苷酸位置的贡献 假定总体结合亲和力是累加的。虽然 这种近似是广泛有效的,然而,它并不成立 对于几种蛋白质(Man&amp; Stormo,2001; Bulyk等,2002)。至 改进定量建模,PWM模型已经扩展到 包括其他参数,例如k-mer特征 TFBS中的位置依赖性(Zhao等,2012; Mathelier&amp; Sons,Inc。 Wasserman,2013; Mordelet等,2013; Weirauch等,2013;莱利等 al,2015)。核苷酸位置之间的相互依赖性有一个 结构起源。例如,堆叠相邻之间的相互作用 碱基对形成局部三维DNA结构。 TF有 对序列依赖性DNA构象的偏好,我们称之为DNA 形状读数(Rohs等,2009,2010)。
或更多当代人:
基于这个理由,可以采用另一种方法来增强 传统的PWM模型是包含DNA结构特征。 结合这些DNA形状的TF-DNA结合特异性的模型 功能达到了与模型相当的性能水平 结合更高阶的k-mer特征,同时需要很多 参数数量较少(Zhou等,2015)。我们以前 揭示了DNA形状读数对基本成员的重要性 螺旋 - 环 - 螺旋(bHLH)和同源域TF家族(Dror等,2014; Yang等,2014; Zhou等,2015)。我们也能够为Hox TFs, 确定TFBS中哪些区域使用DNA形状读数, 展示了揭示机制见解的方法的力量 进入TF-DNA识别(Abe等,2015)。这个能力是 由于缺乏,仅为两个蛋白质家族广泛显示 大规模的高质量TF-DNA结合数据。随着最近 它丰富的高通量测量蛋白质-DNA结合 现在可以解剖许多TF的DNA形状读数的作用 家庭。
**** DNA基序:wiki:在遗传学中,序列基序是一种广泛存在的核苷酸或氨基酸序列模式,具有或被推测具有生物学意义。对于蛋白质,序列基序与结构基序不同,结构基序是由氨基酸的三维排列形成的基序,可能不相邻。
答案 0 :(得分:52)
一次一个单元格的替代方案(要复制的公式):
=len(A2)-len(SUBSTITUTE(A2,"N",""))
答案 1 :(得分:11)
我不知道这是否会有所帮助,但是让我们说你在A2:A6范围内有这些字符串并且你输入
=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))
B2中的,应输出整个范围的N计数。
答案 2 :(得分:-1)
=len(A2)-len(SUBSTITUTE(A2,"N",""))
这可行,但是如果要查找与特定模式匹配的所有数字,请说3。然后:
=len(A2)-len(SUBSTITUTE(A2,"3",""))
这就是您所需要的。