我要抓取的网站是一个聊天室,用户的每条消息都是<div>
。
这里是一个例子:
<div data-username="guywithdogs" class="msg-chat msg-user ">
<time class="time" title="May 3th 2018, 5:48:37 pm">10:37</time>
<a class="user ">guywithdogs</a><span class="ctrl">: </span>
<span class="text">I really like dogwalks</span>
</div>
每次用户与另一个<div>
聊天时都会添加一次。
我想在python中使用bs4或selenium之类的东西,如果推荐的话,我会使用其他选择。
我的目标是针对每封邮件或<div>
,我提取:
<div>
的<time>
的<span>
的内容,它是课程文本的一部分每条消息具有相同的html结构,但具有不同的值(用户名,时间,文本等)
我希望python脚本能够无限期地运行,它将从每个<div>
中提取所需数据并将其附加到文件中。
对于上述示例,我将附加:
[May 3th 2018, 5:48:37 pm] guywithdogs: I really like dogwalks
那么,什么是最好的工具和方法呢?
我也不想使用任何网络套接字或API。