用于识别文本文件中的模式的软件

时间:2011-04-13 13:03:00

标签: parsing pattern-matching

我研究一些解析大型文本文件并将数据插入数据库的软件。每次我们得到一个新的客户端,我们都必须为他们的文本文件编写新的解析代码。

我正在寻找一些软件来帮助简化文本文件的分析。有一些可以识别文件中模式的软件会很不错。

我也对任何可以简化工作的通用解析库(.NET)持开放态度。或任何其他相关软件。

感谢。

更具体

我用一些魔术软件打开一个文本文件,向我展示它已经识别的重复模式。真的,我只是在寻找开发人员用来帮助他们解析文件的任何工具。如果有什么东西帮助你这样做,请告诉我它。

1 个答案:

答案 0 :(得分:0)

嗯,可能不完全是你想要的,但clone detection可能是正确的想法。

有各种这样的探测器。有些只使用一行原始文本,这可能直接适用于您。

一些只对构成文本的作品(“标记”)起作用,对于“标记”的某些定义。 您必须定义令牌对此类工具的含义。

但是你似乎想要一些能够发现文本的结构的东西,然后寻找具有一些参数变化的重复块。我认为这很难做到,除非你事先了解那种结构。

我们CloneDR为编程语言源代码执行此操作,其中“已知结构”是编程语言本身的结构,如BNF语法规则所具体描述的。

您可能不希望对半结构化文本进行Java偏向重复检测。但是如果你知道文档的结构,你可以把它写成语法,然后我们的CloneDR工具会把它拿起来。