我正在做一个webscraping使用美丽的汤提取一些文本。
我成功地从网页中提取了所需的文本,但我的新要求是我需要的文本以提取文本实际开始和结束的文档中的偏移数/位置。
有没有可能使用美味的汤或任何有用的包装?
请提供您的想法和建议......
由于
答案 0 :(得分:0)
尝试使用以下代码
import re
DATA = "This is test message"
for match in re.finditer(r'(?s)((?:[^\n][\n]?)+)', DATA):
print match.start(), match.end()
输出
0 20