Question

我有一个大文本文件，每行都是一个独特的概念。每行可能只有少量模式。

如果我想浏览文本文件并找到行之间的常用模式，以便与行的每个子部分的后续正则表达式提取一起使用;什么是最好的方式或有任何现有的工具？我更喜欢Python。

所以一条线可能会遵循这些模式：

(1 to 5 alpha letters)(,)(space)(Sentence)
(word)(.)(space)(Sentence)(Sentence)
(word)(number)(.)(space)(Sentence)(Sentence)
(word)(!)(space)(Sentence)(Sentence)

我可能不知道（！）例如。

基本上它应该提取一个正则表达式列表，它们总共覆盖了每个可能的行，但是带有已定义的构建块;喜欢（1到5个字母）（句子）（任何未被积木覆盖的东西）

Answer 1

您正在寻找的是pattern recognition和/或data mining的算法，它们是人工智能的非常复杂的子域。

我建议您选择一本关于这个主题的书，或者尝试以不同的方式解决您的问题。

编写在文本文件中搜索正则表达式子部分组合的工具的最佳方法

1 个答案: