Question

我有以下数据框。我想构建一个规则引擎来提取模式就像Eg的标记。＆＃34;美国＆＃34;什么是最好的方法呢？对于这类任务，是否有正则表达式或CGUL之类的东西？任何建议将不胜感激。

WORD_INDEX  WORD_TOKEN  WORD_POS
0           TRUMP       PROPN
1           IS          ADP
2           THE         ADP
3           PRESIDENT   NOUN
4           OF          ADP
5           THE         ADP
6           UNITED      NOUN
7           STATES      NOUN

我想从WORD_POS开始并找到WORD_TOKEN。知道怎么做吗？例如，我想找到WORD_TOKENs，其中WORD_POS是NOUN，然后下一个WORD_POS也是NOUN。

Answer 1

您可能希望使用contains字符串方法，默认情况下采用正则表达式参数。例如

mask = df['WORD_TOKEN'].str.contains('(UNITED|STATES)')
print(df[mask])

这将匹配任何包含＆＃34; united＆＃34;或＆＃34;陈述＆＃34;。

从pandas dataframe

1 个答案: