计算每个单元格给定字符的出现次数

时间:2014-11-26 16:53:55

标签: google-sheets count character bioinformatics

问题

例如,如果我想计算一列字符串中N的数量,我该如何在每个单元格的Google Spreadsheets中执行此操作(即一次指向一个单元格的公式我可以拖下来)?

String/Count table

背景

我必须为名为TOMTOM **的程序确定一个阈值-min-overlap <integer>,该程序比较小DNA图案的*** ***之间的相似性****,N是对于字母A,C,G和T的任何线性组合的正则表达式。如果我能够了解我的DNA图案的非N长度的分布以帮助告知我正确的{{1 TOMTOM的值。

以下是一些真实的例子:

enter image description here

** TOMTOM是一种将DNA基序与已知基序数据库进行比较的工具。有关详细信息,请参阅here

*** PWM代表位置权重矩阵:

  • According to Wiki:位置权重矩阵(PWM),也称为位置特定权重矩阵(PSWM)或位置特定评分矩阵(PSSM),是一种常用的图案(模式)表示。生物序列。
  • According to this paper,可以定义为:
  

位置权重矩阵(PWM)或类似PWM的模型被广泛使用   代表蛋白质的DNA结合偏好(Stormo,2000)。在这些   模型,矩阵用于表示TF结合位点(TFBS),具有   每个元素代表对整体绑定的贡献   来自相应位置的核苷酸的亲和力。固有的   传统PWM模型的假设是位置独立性;那   是,TFBS中不同核苷酸位置的贡献   假定总体结合亲和力是累加的。虽然   这种近似是广泛有效的,然而,它并不成立   对于几种蛋白质(Man&amp; Stormo,2001; Bulyk等,2002)。至   改进定量建模,PWM模型已经扩展到   包括其他参数,例如k-mer特征   TFBS中的位置依赖性(Zhao等,2012; Mathelier&amp; Sons,Inc。   Wasserman,2013; Mordelet等,2013; Weirauch等,2013;莱利等   al,2015)。核苷酸位置之间的相互依赖性有一个   结构起源。例如,堆叠相邻之间的相互作用   碱基对形成局部三维DNA结构。 TF有   对序列依赖性DNA构象的偏好,我们称之为DNA   形状读数(Rohs等,2009,2010)。

或更多当代人:

  

基于这个理由,可以采用另一种方法来增强   传统的PWM模型是包含DNA结构特征。   结合这些DNA形状的TF-DNA结合特异性的模型   功能达到了与模型相当的性能水平   结合更高阶的k-mer特征,同时需要很多   参数数量较少(Zhou等,2015)。我们以前   揭示了DNA形状读数对基本成员的重要性   螺旋 - 环 - 螺旋(bHLH)和同源域TF家族(Dror等,2014;   Yang等,2014; Zhou等,2015)。我们也能够为Hox TFs,   确定TFBS中哪些区域使用DNA形状读数,   展示了揭示机制见解的方法的力量   进入TF-DNA识别(Abe等,2015)。这个能力是   由于缺乏,仅为两个蛋白质家族广泛显示   大规模的高质量TF-DNA结合数据。随着最近   它丰富的高通量测量蛋白质-DNA结合   现在可以解剖许多TF的DNA形状读数的作用   家庭。

**** DNA基序:wiki:在遗传学中,序列基序是一种广泛存在的核苷酸或氨基酸序列模式,具有或被推测具有生物学意义。对于蛋白质,序列基序与结构基序不同,结构基序是由氨基酸的三维排列形成的基序,可能不相邻。

3 个答案:

答案 0 :(得分:52)

一次一个单元格的替代方案(要复制的公式):

=len(A2)-len(SUBSTITUTE(A2,"N",""))

答案 1 :(得分:11)

我不知道这是否会有所帮助,但是让我们说你在A2:A6范围内有这些字符串并且你输入

=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))
B2中的

,应输出整个范围的N计数。

答案 2 :(得分:-1)

=len(A2)-len(SUBSTITUTE(A2,"N",""))

这可行,但是如果要查找与特定模式匹配的所有数字,请说3。然后:

=len(A2)-len(SUBSTITUTE(A2,"3",""))

这就是您所需要的。