我想提取每个“日期”部分的,是刮除<p>
内部日期部分的最佳方法是什么。
<div class="kefufloat" id="targetObj">
<img src=" " width="44"></div>
<div class="reblock">
<p><span>运单编号:</span>w44036</p>
<p><span>下单时间:</span>2020-04-21 14:17:56</p>
<p><span>到齐时间:</span>2020-04-10 11:33</p>
<p><span>已称重时间:</span>2020-04-21</p>
</div>
<style>
答案 0 :(得分:0)
我希望这段代码能对您有所帮助。
from bs4 import BeautifulSoup
html = """<div class="reblock">
<p><span>运单编号:</span>w44036</p>
<p><span>下单时间:</span>2020-04-21 14:17:56</p>
<p><span>到齐时间:</span>2020-04-10 11:33</p>
<p><span>已称重时间:</span>2020-04-21</p>
</div>
<style>"""
soup = BeautifulSoup(html, 'html.parser')
for row in soup.find_all('p'):
print(row.get_text())
输出看起来像这样:
运单编号:w44036
下单时间:2020-04-21 14:17:56
到齐时间:2020-04-10 11:33
已称重时间:2020-04-21
要进行进一步处理,可以使用split()方法仅获取字符串的Date部分。那么您可以使用datetime库轻松地操作日期。特别是strftime() and strptime()功能会很有帮助。