Question

问题

例如，如果我想计算一列字符串中N的数量，我该如何在每个单元格的Google Spreadsheets中执行此操作（即一次指向一个单元格的公式我可以拖下来）？

String/Count table

背景

我必须为名为TOMTOM **的程序确定一个阈值-min-overlap <integer>，该程序比较小DNA图案的*** ***之间的相似性****，N是对于字母A，C，G和T的任何线性组合的正则表达式。如果我能够了解我的DNA图案的非N长度的分布以帮助告知我正确的{{1 TOMTOM的值。

以下是一些真实的例子：

enter image description here

** TOMTOM是一种将DNA基序与已知基序数据库进行比较的工具。有关详细信息，请参阅here。

*** PWM代表位置权重矩阵：

According to Wiki：位置权重矩阵（PWM），也称为位置特定权重矩阵（PSWM）或位置特定评分矩阵（PSSM），是一种常用的图案（模式）表示。生物序列。
According to this paper，可以定义为：

位置权重矩阵（PWM）或类似PWM的模型被广泛使用代表蛋白质的DNA结合偏好（Stormo，2000）。在这些模型，矩阵用于表示TF结合位点（TFBS），具有每个元素代表对整体绑定的贡献来自相应位置的核苷酸的亲和力。固有的传统PWM模型的假设是位置独立性;那是，TFBS中不同核苷酸位置的贡献假定总体结合亲和力是累加的。虽然这种近似是广泛有效的，然而，它并不成立对于几种蛋白质（Man＆amp; Stormo，2001; Bulyk等，2002）。至改进定量建模，PWM模型已经扩展到包括其他参数，例如k-mer特征 TFBS中的位置依赖性（Zhao等，2012; Mathelier＆amp; Sons，Inc。 Wasserman，2013; Mordelet等，2013; Weirauch等，2013;莱利等 al，2015）。核苷酸位置之间的相互依赖性有一个结构起源。例如，堆叠相邻之间的相互作用碱基对形成局部三维DNA结构。 TF有对序列依赖性DNA构象的偏好，我们称之为DNA 形状读数（Rohs等，2009,2010）。

或更多当代人：

基于这个理由，可以采用另一种方法来增强传统的PWM模型是包含DNA结构特征。结合这些DNA形状的TF-DNA结合特异性的模型功能达到了与模型相当的性能水平结合更高阶的k-mer特征，同时需要很多参数数量较少（Zhou等，2015）。我们以前揭示了DNA形状读数对基本成员的重要性螺旋 - 环 - 螺旋（bHLH）和同源域TF家族（Dror等，2014; Yang等，2014; Zhou等，2015）。我们也能够为Hox TFs，确定TFBS中哪些区域使用DNA形状读数，展示了揭示机制见解的方法的力量进入TF-DNA识别（Abe等，2015）。这个能力是由于缺乏，仅为两个蛋白质家族广泛显示大规模的高质量TF-DNA结合数据。随着最近它丰富的高通量测量蛋白质-DNA结合现在可以解剖许多TF的DNA形状读数的作用家庭。

**** DNA基序：wiki：在遗传学中，序列基序是一种广泛存在的核苷酸或氨基酸序列模式，具有或被推测具有生物学意义。对于蛋白质，序列基序与结构基序不同，结构基序是由氨基酸的三维排列形成的基序，可能不相邻。

Answer 1

一次一个单元格的替代方案（要复制的公式）：

=len(A2)-len(SUBSTITUTE(A2,"N",""))

Answer 2

我不知道这是否会有所帮助，但是让我们说你在A2：A6范围内有这些字符串并且你输入

=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))

B2中的

，应输出整个范围的N计数。

Answer 3

=len(A2)-len(SUBSTITUTE(A2,"N",""))

这可行，但是如果要查找与特定模式匹配的所有数字，请说3。然后：

=len(A2)-len(SUBSTITUTE(A2,"3",""))

这就是您所需要的。

计算每个单元格给定字符的出现次数

3 个答案: