有一些文字,我想在文字上正确地标记它。在文中可能会出现:
你有什么建议来解决它? 它是否可以用正则表达式解决(例如Python? 我想要撇号的单词不要拆分和引用从单词标记中拆分
Parcing commont text,Ring.txt的团契例如有点棘手:
输入:几乎没有'政府'。 输出:[“有”,“难”,“任何”,“'”,“政府”,“'”](被认可为报价)
一个相当大的身体,根据需要变化,被用来“击败界限” 是一个引用,但由于结束s'
'这不自然,而且会有麻烦!'引号内的撇号
'精灵和龙'我跟他说。是一个引用,怎么样,再一次。
答案 0 :(得分:0)
我的建议是尝试打破你的案件。如果你想用单词分开(意思是一个单词在两端都有空格),那么一个简单的split
就可以完成它的工作。
>>> my_str = "words like that'"
>>> my_str.split(' ')
['words', 'like', "that'"]
>>>
如果它更复杂,正则表达式似乎是一个更好的主意。您可以使用(a|b)
,意思是匹配a或b 。我的建议是尝试更多,实验的最佳地点在这里:regex101.com。为了让事情变得更清楚,请选择Python'在左侧面板中!