我们可以从博客或论坛中提取哪种数据来进行网络抓取项目?

时间:2016-04-18 22:23:40

标签: web-scraping web-crawler

我即将开展一个关于分析博客或论坛数据的项目。所以我想知道我们可以从博客或论坛中提取什么样的数据,我应该如何开始

1 个答案:

答案 0 :(得分:0)

首先,您应该决定使用哪种编程语言。然后,您应该考虑使用网络刮刀。

不同的编程语言有不同的编程语言。对于Java,例如jsoup

关于可以获得哪些数据,您必须首先考虑页面的格式。但我建议收集的数据包括:

用户名 网站上的照片 与用户名相关的数据(加入日期,帖子数量,高级会员状态,照片,电话号码,电子邮件地址,全名,地址等(如果适用)), 博文的标题, 在论坛上提出的问题, 每个问题的答案数量, Typos在博文中, 日期相关信息。