Question

我正在尝试从此blog post获取博客内容，并且根据内容，我只是指前六段。这是我到目前为止所提出的：

soup = BeautifulSoup(url, 'lxml')
body = soup.find('div', class_='post-body')

打印body还会在主div标签下包含其他内容。

Answer 1

试试这个：

import requests ; from bs4 import BeautifulSoup

res = requests.get("http://www.fashionpulis.com/2017/08/being-proud-too-soon.html").text
soup = BeautifulSoup(res, 'html.parser')
for item in soup.select("div#post-body-604825342214355274"):
    print(item.text.strip())

使用此：

import requests ; from bs4 import BeautifulSoup

res = requests.get("http://www.fashionpulis.com/2017/08/acceptance-is-must.html").text
soup = BeautifulSoup(res, 'html.parser')
for item in soup.select("div[id^='post-body-']"):
    print(item.text)

Answer 2

我发现这个解决方案非常有趣：Scrape multiple pages with BeautifulSoup and Python

但是，我还没有找到任何查询字符串参数来解决，也许你可以从这种方法开始。

我现在发现最明显的事情是这样的：

每个月和每年搜索并从博客存档部分获取所有标题（例如，在http://www.fashionpulis.com/2017/03/等等）
使用标题和相应月份/年份构建网址（网址始终为http://www.fashionpulis.com/ $ YEAR / $ MONTH / $ TITLE.html）
在Shahin的回答

如何仅使用Beautiful Soup提取博客内容并排除其他元素

2 个答案: