Question

我正在尝试从此网址中提取所有成绩单-https://fangj.github.io/friends/

我已经尝试过我的代码，但是

第217-223集没有完全提取出来。
第302集，没有任何记录被提取。
第224、921、1015集（以及更多）没有每个对话一行。
，依此类推。

如果我理解正确，那么许多网页的文本结构会有所不同，这使我难以一概而论，除非我在这里遗漏了某些内容。

我的目标是从网页上按原样获取文本到文本文件中，并将情节名称作为文件名-即0101.txt，0310.txt等像url结尾扩展名一样。现在，我已经通过ctrl+a + ctrl+c + ctrl+v手动收集了它们。我希望刮一下它，以便可以自动执行此过程。现在，该方法是使用pyautogui。但是，如果可能的话，我更喜欢网页抓取。我对其他存在python的库开放。

代码

import requests
from bs4 import BeautifulSoup

url = "https://fangj.github.io/friends/"

page_content = requests.get(url, timeout=5)

page_html = BeautifulSoup(page_content.content, "html.parser")

list_of_links = page_html.findAll('a')

list_of_hrefs = []
for href in list_of_links:
    if href.has_attr('href'):
        list_of_hrefs.append(href.attrs['href'])

episode_nos = []
for link in list_of_hrefs:
    episode_nos.append(link.split('/')[1].split('.')[0])

list_of_urls = []
for href in list_of_hrefs:
    list_of_urls.append(url+href)

for episode_no, one_url in enumerate(list_of_urls):
    episode_content = requests.get(one_url, timeout=5)
    episode_html = BeautifulSoup(episode_content.content, "html.parser")

    episode_dialogues = episode_html.findAll('p')

    with open('../../data/raw/{}.txt'.format(episode_nos[episode_no]), 'w', encoding='utf-8') as file:
        for text in episode_dialogues:
            file.write(text.text.replace('\n', ' ') + '\n')

Answer 1

您可以选择整个HTML标签文本，以获取每个插曲链接内的所有内容，即select_one('html').text。这似乎容易得多。

您可以使用带有^运算符的css attribute = value选择器（以状态属性值以=右边的子字符串开头）来收集所有初始情节链接，即[href^='season']

拨打很多电话时，您可以重新使用会话连接。我相信在这里多处理也是一个好主意。

import requests
import pandas as pd
from bs4 import BeautifulSoup
import ftfy

session = requests.Session()

def makeSoup(url):
    res = session.get(url,timeout=5)
    res.raise_for_status()
    soup_content = BeautifulSoup(res.content, "lxml")
    for style in soup_content(["style"]):
        style.decompose()
    return soup_content

url = "https://fangj.github.io/friends/"
soup = makeSoup(url)

links = [url + link['href'] for link in soup.select("[href^='season']")]
results = [[link.split('season/')[1].split('.html')[0], makeSoup(link).select_one('html').text] for link in links]

df = pd.DataFrame(results)

for index, row in df.iterrows():
    with open('data/' + row[0] + '.txt', 'w', encoding='utf-8') as file:
        file.write(ftfy.fix_text(row[1]))

然后，您可以对检索到的文本进行所需的操作。

如何从多个网页中提取文本，其中某些页面的文本使用不同的标签？

1 个答案: