Question

我遇到一个问题，我有大约700个html文档，每个文档包含一个字母中包含的一个字母，所有文档都在同一个类中。

有没有办法把所有的字母拿出来加入？也许使用BeautifulSoup或其他方法？

Answer 1

当然有。尝试这样的事情：

import os
from BeautifulSoup import BeautifulSoup

letter_list = []
for file in os.listdir('path/to/dir'):
    with open('path/to/file', 'r') as html_file:
        html = ' '.join(str(x) for x in list(html_file)) # Combines each row in file into a single string
        soup = BeautifulSoup(html)

        letter = soup('span',{'class':'someclass'})[0].contents[0]
        letter_list.append(letter)

my_string = ''.join(str(x) for x in letter_list)

这将迭代目录，打开每个html文件并解析字符串。提取的字母将附加到列表中，并在解析完所有文件后加入。

跨多个HTML文档提取跨越的信息

1 个答案: