在另一个字符串

时间:2017-05-20 18:28:37

标签: python regex string search

我需要能够搜索像

这样的字符串

- TAF10 RNA polymerase II, TATA box binding protein (TBP)-associated factor

- TATA box binding protein (TBP)-associated factor, RNA polymerase II, C2, 105kD

- ir

- TABK-1

在包含这些字符串的文本段中。我再说一遍,上面提到的字符串将在更大的文本段中搜索

使用re.search(字边界)执行\b对此不起作用(因为括号,连字符,逗号等特殊字符)并且因为我有简单的字符串,如{{1 }},ir等等,我不能只做mo,因为它会导致字内匹配,这是要避免的(如if string1 in text_segment将匹配{{ 1}}在'B ir th')。

我想到的一种方法是使用许多分割符来破解文本段,例如逗号,括号,空格,连字符等,并对字符串进行相同的操作。然后使用空格将它们两个(分别)连接起来,然后使用单词边界在段中搜索字符串。但我想知道是否有更好的方法来解决问题。 我需要为大量字符串( ~300,000 )执行此操作,因此时间效率非常重要。

示例 -

搜索算法应该能够适用于以下两种情况 -

案例1:

string = if string1 in text_segment

text segment =

  

白血病干细胞(LSCs)是治疗多种类型血癌的有吸引力的靶标。对驱动LSC形成和维持的表观遗传机制仍有不完全的了解,以及与正常造血干细胞(HSCs)的表观遗传调控相比如何。“!Series_summary”研究MLL-AF9白血病干细胞依赖的新机制在 TAF10 RNA聚合酶II,TATA盒结合蛋白(TBP)相关因子上,我们使用全基因组表达谱来检测Dnmt1单倍体中基因表达的变化,足够的L-GMPs以及更多分化的白血病细胞(白血病细胞的大量群体)与对照组相比。

案例2:

string = ir

text segment =

  

用MLL-AF9-IRES-GFP逆转录病毒转导这些细胞2天,然后分选GFP +细胞并移植到C57BL / 6同基因亚致死辐射(600rad)受体中。 2周后,通过七次注射poly(I)poly(C),在白血病细胞中实现 ir 单倍体不足。在终末期sh ir t髓样白血病的发展过程中,从白血病脾脏FACS分选L-GMPs群体或大量GFP +白血病细胞,提取RNA,扩增并与Affymetrix杂交

     

它不应与上面的TAF10 RNA polymerase II, TATA box binding protein (TBP)-associated factor 的斜体字匹配,因为它们在另一个字中)

0 个答案:

没有答案