我即将开展一个关于分析博客或论坛数据的项目。所以我想知道我们可以从博客或论坛中提取什么样的数据,我应该如何开始
答案 0 :(得分:0)
首先,您应该决定使用哪种编程语言。然后,您应该考虑使用网络刮刀。
不同的编程语言有不同的编程语言。对于Java,例如jsoup。
关于可以获得哪些数据,您必须首先考虑页面的格式。但我建议收集的数据包括:
用户名 网站上的照片 与用户名相关的数据(加入日期,帖子数量,高级会员状态,照片,电话号码,电子邮件地址,全名,地址等(如果适用)), 博文的标题, 在论坛上提出的问题, 每个问题的答案数量, Typos在博文中, 日期相关信息。