我来这里寻求帮助,因为我正在开始一个项目,我甚至不知道要问什么问题。
它归结为我有一堆html文件,我需要解析各种信息。这些文件是从在线论坛存档的。我基本上想要做的是能够为程序提供一个html文件并让它将以下信息写入数据库:
- 每个用户发布的帖子数量,每个帖子的时间戳,特定字符串是否出现在邮件正文中
以及其他一些类似的信息。
HTML Parser会成为方向吗?我看着它,但老实说我对如何实现它并不了解很多。我拥有计算机科学学士学位,但其编程部分主要专注于算法和解决基本逻辑问题。我们从未学过任何关于将包含多个文件的大型项目放在一起的知识,因此我对.jar文件和不同库的实现方式的了解基本上是不存在的。
任何让我指向正确方向的事情都会非常感激!
答案 0 :(得分:0)
HTML解析可以用多种语言完成。
如果您的编程经验很少或没有,我建议您从Python开始。与Java相比,您将能够相当快地进入它。 看看Codecademy的Python曲目 - http://www.codecademy.com/tracks/python
您可以使用许多框架来抓取Python中的html,例如lxml,beautifulsoup和Scrapy。 您在它们之间做出的选择取决于您的问题的程度,例如,您需要多快的程序运行?你能用简单的xpath表达式抓取html文件,还是需要实现自己的抓取功能?
对于快速而肮脏的解决方案,我推荐BeautifulSoup。你甚至不需要学习xpath来让球滚动。但是,根据我的经验,框架相当慢,因此对于长期解决方案而言可能不是一个好的选择。
祝你好运!