我想提取一个包含标签的段落。我的意思是我有一个包含多个段落的文本,在任何段落中都有用于情感分析的标记XML。我想提取每个段落并将其放入列中,将该段落中具有该段落的每个标签以及单词的强度进行提取。 示例:
开始一段......................严重不公正..............结束一段
开始一段......................严重不公正..............结束一段
...
_______________________________________________
|Paragraph | Word sentiment | Intensity |
+_______________+__________________+___________+
| Paragraph 1 | Dissatisfaction | 6 |
| Paragraph 1 | satisfaction | 8 |
| .... | .... | .. |
| | | |
________________________________________________
为了提取麦芽汁的感官和强度,我已经写了这篇文章,并且效果很好。
csv = df['text'].str.extractall(r'^<(?P<Sentiments>\w+)\s*[int].*(?P<Intensite>\d)')
我的问题是如何提取相应的段落并将其放在一列中(通过将其附加或组合到上面的正则表达式中)?
谢谢