Question

我想提取一个包含标签的段落。我的意思是我有一个包含多个段落的文本，在任何段落中都有用于情感分析的标记XML。我想提取每个段落并将其放入列中，将该段落中具有该段落的每个标签以及单词的强度进行提取。示例：

开始一段......................严重不公正..............结束一段

...

_______________________________________________
|Paragraph      | Word sentiment   | Intensity |
+_______________+__________________+___________+
|  Paragraph 1  | Dissatisfaction  |     6     |
|  Paragraph 1  | satisfaction     |     8     |
|     ....      |      ....        |     ..    |
|               |                  |           |
________________________________________________

为了提取麦芽汁的感官和强度，我已经写了这篇文章，并且效果很好。

csv = df['text'].str.extractall(r'^<(?P<Sentiments>\w+)\s*[int].*(?P<Intensite>\d)')

输出：

我的问题是如何提取相应的段落并将其放在一列中（通过将其附加或组合到上面的正则表达式中）？

谢谢

通过python regex提取包含我的xml标签的段落

0 个答案: