在使用正则表达式进行标记时区分引号和撇号

时间:2018-01-30 10:43:19

标签: python regex

有一些文字,我想在文字上正确地标记它。在文中可能会出现:

  • 中间带撇号的单词(不能,我会,会计师的书)
  • 最后用撇号的话(雇主协会,我花了大部分时间来替换'破碎的一部分)
  • 引用,直接留在单词后面或单词之间:word'word
  • 文本在句子上被分割,但引用中可以有很多句子,带有apostroph的单词也可以保留在引用中
  • qutes的不同符号,例如'''用于打开和关闭,或者一个是'other is`或'等......

你有什么建议来解决它? 它是否可以用正则表达式解决(例如Python? 我想要撇号的单词不要拆分和引用从单词标记中拆分

Parcing commont text,Ring.txt的团契例如有点棘手:

  • 输入:几乎没有'政府'。 输出:[“有”,“难”,“任何”,“'”,“政府”,“'”](被认可为报价)

  • 一个相当大的身体,根据需要变化,被用来“击败界限” 是一个引用,但由于结束s'

  • 而很棘手
  • '这不自然,而且会有麻烦!'引号内的撇号

  • '精灵和龙'我跟他说。是一个引用,怎么样,再一次。

1 个答案:

答案 0 :(得分:0)

我的建议是尝试打破你的案件。如果你想用单词分开(意思是一个单词在两端都有空格),那么一个简单的split就可以完成它的工作。

>>> my_str = "words like that'"
>>> my_str.split(' ')
['words', 'like', "that'"]
>>>

如果它更复杂,正则表达式似乎是一个更好的主意。您可以使用(a|b),意思是匹配a或b 。我的建议是尝试更多,实验的最佳地点在这里:regex101.com。为了让事情变得更清楚,请选择Python'在左侧面板中!