文件路径名称或URL分析

时间:2012-09-27 13:29:54

标签: machine-learning

我正在寻找有关分析文件路径名的工具,方法和技术的信息。我不是在谈论文件大小,读/写时间或文件类型,而是分析它自己的路径或URL。

我只知道基本的单词频率文本工具或方法,但我想知道是否有更高级的东西,人们使用/应用于此尝试从中获取额外的信息。

谢谢!

更新:

这是我想要的最狭隘的例子。好的,所以我有一些完整的路径名作为这样的字符串:

F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File5.doc

F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File5.doc

我想知道的是MapShedMaps文件夹“唯一”出现2次。如果我对琴弦做频率,我会得到10次出场。问题是我不知道目录中哪个级别重要,所以我希望根据我所描述的内容在目录的每个级别进行唯一计数。

2 个答案:

答案 0 :(得分:2)

这是一个非常广泛的问题,所以我很难给你一个说“答案”,但我会先给你初步想法。

首先,

.NET的正则表达式类对于解析大量信息非常有用。它非常强大,很容易混淆不耐烦,但是一旦掌握它就可以在文本编辑器,.NET和我相信的任何其他可敬的语言中使用。这将允许您搜索字符串并将其分成目录。根据你如何使用它,这可能有点过分,但这是一个想法。 Here is a favorite link of mine to try out some regular expressions.

第二,

您需要一个数据库,我更喜欢使用SQL。了解如何连接数据库和创建数据库。使用此数据库,您可以存储从输入的原始路径中提取的所有字段。如父目录,子目录,访问的常见文件类型。只需为这些中的每一个都有一个字段,通过查询,您可以形成冗余的假设。

第三,

我不知道它是否易于访问,但您可能会查看Windows存储是否访问了文件历史记录。似乎有一些关于过去打开过哪些文件的问题。因此,Windows中可能存在一个资源,它已经存储了您将要存储在数据库中的大部分信息。如果您能找到访问此信息的方法。使用正则表达式解析它并将其重新提交到应用程序的数据库。你可以控制世界! j / k ...你可以对用户访问模式有一个很好的预测。

第四,

我总是尽力坚持我所拥有的。如果.NET坐在你面前,那么就要摒弃你想做的事情。如果你到了一堵墙。至少你的进步是前进的。在今天面向对象编程的运动中,您通常可以将一个程序收集的数据更改为另一个程序可接受的格式。你只需要挖一点。

哦,顺便说一句,Coursera.com实际上是在机器学习和算法上做免费课程。您可能想要检查它或引用它以获得预测公式。

祝你好运。

答案 1 :(得分:0)

我想将此作为评论发布,但是仍然要将\编辑为\ \并且重要的是有两个因为\是一个关键字符,没有另一个\来逃避它,正则表达式会将其解释为命令。< / p>

嘿我只是想让你知道我一直在玩一些正则表达式...我知道在VB.net中编写这个代码的一种非常简单的方法我会发布这个作为我的第二个答案但是我想要你查看反向引用。如果括号之间的部分匹配,则它捕获该文本并转移到第二个查询,例如....

F:\\(directory1)?(directory2)?(directory3)? 

您可以使用这些匹配来查找每个父目录下有多少个目录。你正在跟着我吗? Here is a reference.