我的文本中带有标签document
,并希望提取该文本之间的所有文本。我的示例文本如下:
<document clueWebID="clueweb12-0710wb-90-29809">
<sentences>
<s relevant="true" sentenceID="0">
<content>I��m a Master��s-level recreation therapist and CTRS.</content>
</s>
<s relevant="true" sentenceID="1">
<content>The Individuals with Disabilities Education Act (IDEA) provides for therapeutic recreation for students that can benefit from recreation interventions.</content>
</s>
</sentences>
</document>
<document clueWebID="clueweb12-0710wb-90-29809">
<sentences>
<s relevant="true" sentenceID="4">
<content>...because as soon as i researched ADHD��my life fell into place��and i now dont feel as detached/confused/alienated as i normally do ...is ther any1 on here from the UK?</content>
</s>
<s relevant="true" sentenceID="5">
<content>...oh and has any1 got any info on Synaptol��i am trying to get hold of some��but its impossible in the UK��and its really dear :/ ...i am starting college in sepember and really dont want to ruin it again!</content>
</s>
</sentences>
</document>
<document clueWebID="clueweb12-0102wb-15-11573">
<sentences>
<s relevant="true" sentenceID="6">
<content>ADHD Medications Non-Drug ADHD Treatments Fine-Tuning Treatment Financing Treatment ADHD Symptoms &amp; Statistics ADHD Basics Diagnosing ADHD Myths about ADHD About Learning Disabilities Meds at School</content>
</s>
</sentences>
</document>
我尝试了以下代码:
re.findall('<document(.|\n)*?</document>',txt)
它提取具有正确数量的元素的列表(元素的数量等于document
标签的数量)。但是元素是空的并且包含空字符串。
我的代码有什么问题?