通过python regex提取包含我的xml标签的段落

时间:2019-02-26 23:54:57

标签: python regex xml-parsing

我想提取一个包含标签的段落。我的意思是我有一个包含多个段落的文本,在任何段落中都有用于情感分析的标记XML。我想提取每个段落并将其放入列中,将该段落中具有该段落的每个标签以及单词的强度进行提取。 示例:

开始一段......................严重不公正..............结束一段

开始一段......................严重不公正..............结束一段

...

_______________________________________________
|Paragraph      | Word sentiment   | Intensity |
+_______________+__________________+___________+
|  Paragraph 1  | Dissatisfaction  |     6     |
|  Paragraph 1  | satisfaction     |     8     |
|     ....      |      ....        |     ..    |
|               |                  |           |
________________________________________________

为了提取麦芽汁的感官和强度,我已经写了这篇文章,并且效果很好。

csv = df['text'].str.extractall(r'^<(?P<Sentiments>\w+)\s*[int].*(?P<Intensite>\d)')

输出: result of regex

我的问题是如何提取相应的段落并将其放在一列中(通过将其附加或组合到上面的正则表达式中)?

谢谢

0 个答案:

没有答案