Question

我要抓取的网站是一个聊天室，用户的每条消息都是<div>。

这里是一个例子：

<div data-username="guywithdogs" class="msg-chat msg-user ">

<time class="time" title="May 3th 2018, 5:48:37 pm">10:37</time>  

<a class="user ">guywithdogs</a><span class="ctrl">: </span> 

<span class="text">I really like dogwalks</span>

</div>

每次用户与另一个<div>聊天时都会添加一次。

我想在python中使用bs4或selenium之类的东西，如果推荐的话，我会使用其他选择。

我的目标是针对每封邮件或<div>，我提取：

<div>

data-username属性值

<time>

title属性值
<span>的内容，它是课程文本的一部分

每条消息具有相同的html结构，但具有不同的值（用户名，时间，文本等）

我希望python脚本能够无限期地运行，它将从每个<div>中提取所需数据并将其附加到文件中。

对于上述示例，我将附加：

[May 3th 2018, 5:48:37 pm] guywithdogs: I really like dogwalks

那么，什么是最好的工具和方法呢？

我也不想使用任何网络套接字或API。

如何抓取不断更新的网站（例如聊天室）？

0 个答案: