编写在文本文件中搜索正则表达式子部分组合的工具的最佳方法

时间:2012-12-28 15:14:52

标签: python regex

我有一个大文本文件,每行都是一个独特的概念。每行可能只有少量模式。

如果我想浏览文本文件并找到行之间的常用模式,以便与行的每个子部分的后续正则表达式提取一起使用;什么是最好的方式或有任何现有的工具?我更喜欢Python。

所以一条线可能会遵循这些模式:

(1 to 5 alpha letters)(,)(space)(Sentence)
(word)(.)(space)(Sentence)(Sentence)
(word)(number)(.)(space)(Sentence)(Sentence)
(word)(!)(space)(Sentence)(Sentence)

我可能不知道(!)例如。

基本上它应该提取一个正则表达式列表,它们总共覆盖了每个可能的行,但是带有已定义的构建块;喜欢(1到5个字母)(句子)(任何未被积木覆盖的东西)

1 个答案:

答案 0 :(得分:0)

您正在寻找的是pattern recognition和/或data mining的算法,它们是人工智能的非常复杂的子域。

我建议您选择一本关于这个主题的书,或者尝试以不同的方式解决您的问题。