我有以下数据框。我想构建一个规则引擎来提取模式就像Eg的标记。 "美国"什么是最好的方法呢?对于这类任务,是否有正则表达式或CGUL之类的东西?任何建议将不胜感激。
WORD_INDEX WORD_TOKEN WORD_POS
0 TRUMP PROPN
1 IS ADP
2 THE ADP
3 PRESIDENT NOUN
4 OF ADP
5 THE ADP
6 UNITED NOUN
7 STATES NOUN
我想从WORD_POS开始并找到WORD_TOKEN。知道怎么做吗?例如,我想找到WORD_TOKENs,其中WORD_POS是NOUN,然后下一个WORD_POS也是NOUN。
答案 0 :(得分:0)
您可能希望使用contains
字符串方法,默认情况下采用正则表达式参数。例如
mask = df['WORD_TOKEN'].str.contains('(UNITED|STATES)')
print(df[mask])
这将匹配任何包含" united"或"陈述"。