Python:使用正则表达式查找带有标签的文本

时间:2018-06-20 17:36:10

标签: python regex

我的文本中带有标签document,并希望提取该文本之间的所有文本。我的示例文本如下:

<document clueWebID="clueweb12-0710wb-90-29809">
  <sentences>
    <s relevant="true" sentenceID="0">
      <content>I&#65533;&#65533;m a Master&#65533;&#65533;s-level recreation therapist and CTRS.</content>
    </s>
    <s relevant="true" sentenceID="1">
      <content>The Individuals with Disabilities Education Act (IDEA) provides for therapeutic recreation for students that can benefit from recreation interventions.</content>
    </s>
    </sentences>
</document>
<document clueWebID="clueweb12-0710wb-90-29809">
  <sentences>
    <s relevant="true" sentenceID="4">
      <content>...because as soon as i researched ADHD&#65533;&#65533;my life fell into place&#65533;&#65533;and i now dont feel as detached/confused/alienated as i normally do ...is ther any1 on here from the UK?</content>
    </s>
    <s relevant="true" sentenceID="5">
      <content>...oh and has any1 got any info on Synaptol&#65533;&#65533;i am trying to get hold of some&#65533;&#65533;but its impossible in the UK&#65533;&#65533;and its really dear :/ ...i am starting college in sepember and really dont want to ruin it again!</content>
    </s>
    </sentences>
</document>
<document clueWebID="clueweb12-0102wb-15-11573">
  <sentences>
    <s relevant="true" sentenceID="6">
      <content>ADHD Medications Non-Drug ADHD Treatments Fine-Tuning Treatment Financing Treatment ADHD Symptoms &amp;amp; Statistics ADHD Basics Diagnosing ADHD Myths about ADHD About Learning Disabilities Meds at School</content>
    </s>
    </sentences>
</document>

我尝试了以下代码:

re.findall('<document(.|\n)*?</document>',txt)

它提取具有正确数量的元素的列表(元素的数量等于document标签的数量)。但是元素是空的并且包含空字符串。 我的代码有什么问题?

0 个答案:

没有答案