需要一些帮助才能获得一个html解析项目

时间:2013-06-02 18:17:22

标签: html parsing html-parsing extraction

我来这里寻求帮助,因为我正在开始一个项目,我甚至不知道要问什么问题。

它归结为我有一堆html文件,我需要解析各种信息。这些文件是从在线论坛存档的。我基本上想要做的是能够为程序提供一个html文件并让它将以下信息写入数据库:

- 每个用户发布的帖子数量,每个帖子的时间戳,特定字符串是否出现在邮件正文中

以及其他一些类似的信息。

HTML Parser会成为方向吗?我看着它,但老实说我对如何实现它并不了解很多。我拥有计算机科学学士学位,但其编程部分主要专注于算法和解决基本逻辑问题。我们从未学过任何关于将包含多个文件的大型项目放在一起的知识,因此我对.jar文件和不同库的实现方式的了解基本上是不存在的。

任何让我指向正确方向的事情都会非常感激!

1 个答案:

答案 0 :(得分:0)

HTML解析可以用多种语言完成。

如果您的编程经验很少或没有,我建议您从Python开始。与Java相比,您将能够相当快地进入它。 看看Codecademy的Python曲目 - http://www.codecademy.com/tracks/python

您可以使用许多框架来抓取Python中的html,例如lxml,beautifulsoup和Scrapy。 您在它们之间做出的选择取决于您的问题的程度,例如,您需要多快的程序运行?你能用简单的xpath表达式抓取html文件,还是需要实现自己的抓取功能?

对于快速而肮脏的解决方案,我推荐BeautifulSoup。你甚至不需要学习xpath来让球滚动。但是,根据我的经验,框架相当慢,因此对于长期解决方案而言可能不是一个好的选择。

祝你好运!