应用错误收集

我来这里寻求帮助，因为我正在开始一个项目，我甚至不知道要问什么问题。

它归结为我有一堆html文件，我需要解析各种信息。这些文件是从在线论坛存档的。我基本上想要做的是能够为程序提供一个html文件并让它将以下信息写入数据库：

- 每个用户发布的帖子数量，每个帖子的时间戳，特定字符串是否出现在邮件正文中

以及其他一些类似的信息。

HTML Parser会成为方向吗？我看着它，但老实说我对如何实现它并不了解很多。我拥有计算机科学学士学位，但其编程部分主要专注于算法和解决基本逻辑问题。我们从未学过任何关于将包含多个文件的大型项目放在一起的知识，因此我对.jar文件和不同库的实现方式的了解基本上是不存在的。

任何让我指向正确方向的事情都会非常感激！

HTML解析可以用多种语言完成。

如果您的编程经验很少或没有，我建议您从Python开始。与Java相比，您将能够相当快地进入它。看看Codecademy的Python曲目 - http://www.codecademy.com/tracks/python

您可以使用许多框架来抓取Python中的html，例如lxml，beautifulsoup和Scrapy。您在它们之间做出的选择取决于您的问题的程度，例如，您需要多快的程序运行？你能用简单的xpath表达式抓取html文件，还是需要实现自己的抓取功能？

对于快速而肮脏的解决方案，我推荐BeautifulSoup。你甚至不需要学习xpath来让球滚动。但是，根据我的经验，框架相当慢，因此对于长期解决方案而言可能不是一个好的选择。

祝你好运！