如何抓取不断更新的网站(例如聊天室)?

时间:2019-05-04 22:48:38

标签: python web-scraping

我要抓取的网站是一个聊天室,用户的每条消息都是<div>

这里是一个例子:

<div data-username="guywithdogs" class="msg-chat msg-user ">

<time class="time" title="May 3th 2018, 5:48:37 pm">10:37</time>  

<a class="user ">guywithdogs</a><span class="ctrl">: </span> 

<span class="text">I really like dogwalks</span>

</div>

每次用户与另一个<div>聊天时都会添加一次。

我想在python中使用bs4或selenium之类的东西,如果推荐的话,我会使用其他选择。


我的目标是针对每封邮件或<div>,我提取:

    <div>
  • data-username属性值
  • <time>
  • title属性值
  • <span>的内容,它是课程文本的一部分

每条消息具有相同的html结构,但具有不同的值(用户名,时间,文本等)

我希望python脚本能够无限期地运行,它将从每个<div>中提取所需数据并将其附加到文件中。

对于上述示例,我将附加:

[May 3th 2018, 5:48:37 pm] guywithdogs: I really like dogwalks

那么,什么是最好的工具和方法呢?

我也不想使用任何网络套接字或API。

0 个答案:

没有答案