将段落拆分成单独的行

时间:2021-06-10 18:42:21

标签: python selenium web-scraping

我从一个包含许多段落的网站上抓取了信息。我想把这些段落分开。以下是我收到的当前文本输出:

Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium \n totam rem aperiam, eaque ipsa quae ab illo inventore\n veritatis et quasi architecto beatae vitae dicta sunt explicabo.\n Nemo enim ipsam voluptatem quia\n voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. Neque porro quisquam est, qui\n dolorem ipsum quia dolor sit amet, consectetur\n adipisci velit, sed quia non numquam eius\n modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. Ut enim ad minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur?\n Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo\n voluptas nulla pariatur

程序识别出上述代码中某些文本之间的 /n 中明显的段落之间的换行符。要插入换行符,我正在执行以下操作:print(description).split(\n).

每次我调用描述变量时,它都会输出一个超出范围的提示列表索引。

3 个答案:

答案 0 :(得分:0)

description = description.split("\n")

这将在每次出现“\n”时将描述变量拆分为一个新数组。

答案 1 :(得分:0)

看看是否有效


str = "Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium \n totam rem aperiam, eaque ipsa quae ab illo inventore\n veritatis et quasi architecto beatae vitae dicta sunt explicabo.\n Nemo enim ipsam voluptatem quia\n voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. Neque porro quisquam est, qui\n dolorem ipsum quia dolor sit amet, consectetur\n adipisci velit, sed quia non numquam eius\n modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. Ut enim ad minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur?\n Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo\n voluptas nulla pariatur"

splitStr = []

splitStr = str.split("\n")
for s in splitStr:
   print(s)

答案 2 :(得分:0)

问题是你在做 print(description).split(\n) 而不是 print(description.split("\n"))

string = "Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium \n totam rem aperiam, eaque ipsa quae ab illo inventore\n veritatis et quasi architecto beatae vitae dicta sunt explicabo.\n Nemo enim ipsam voluptatem quia\n voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. Neque porro quisquam est, qui\n dolorem ipsum quia dolor sit amet, consectetur\n adipisci velit, sed quia non numquam eius\n modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. Ut enim ad minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur?\n Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo\n voluptas nulla pariatur"

def split(text):
    lines = text.split("\n")
    return lines
    
print(split(string))