如何为桌面编写爬虫

时间:2014-06-08 18:29:24

标签: python perl

我想编写一个程序,将我的pdf和音乐文件编入我的硬盘驱动器(而不是服务器)的索引。我计划通过perl或python或两者来做到这一点。我基本上会为我的desctop写一个爬虫。用户界面将在JavaFx中,我认为它非常流利。我在JavaFx中完成了几个项目。我没有在perl / python中做过任何事情。然而,我在教自己语法时已经在其中做了几行代码。

问题是,在开始编写爬虫时,我应该从哪些主题开始我的研究。我在网上看过很多关于抓取工具的教程,但都进行了网页索引。我还应该研究哪些模块?

1 个答案:

答案 0 :(得分:0)

在python中查找可以使用os.walk的文件 - 帮助中的示例非常有用。

假设您要做的不仅仅是找到文件并获取其名称,您需要了解有关内容的更多信息,有些python库可以从pdf文件中获取文本,如PDFMiner和pdfquery 。

同样,有许多python工具可以为您提供有关音乐文件的更多信息。

这一切都取决于你计划如何索引它们。