我的段落为:
INPUT: -
"然而,通常缺乏具有足够可靠性和时间和地理细节的地方,区域和国家土地利用和土地覆盖数据,以提供对景观变化的准确估计。美国地质调查局的EROS数据中心和美国环境保护局的景观生态学分部正在合作开展一项为期四年的研究项目,以记录土地覆盖变化的类型,分布,比率,驱动因素和后果。在过去的30年里,美国是一样的。该项目使用生态区域框架作为地理分层。"
想要分隔新行的每个句子。我正在解析"。"取代每一个"。" as" \ n" (新行字符)。它适用于普通句子,但是当"美国地质......"这样的事情来了我的剧本制作了两个我不想要的单独的句子。请提出可能的建议
预期输出: - (3个句子连续编号)
1)然而,通常缺乏具有足够可靠性和时间和地理细节的地方,区域和国家土地利用和土地覆盖数据,以提供对景观变化的准确估计。
2)美国地质调查局的EROS数据中心和美国环境保护局的景观生态学分会正在合作开展一项为期四年的研究项目,以记录其类型,分布,比率,驱动因素和后果。过去30年来美国相邻的土地覆盖变化。
3)该项目使用生态区域框架作为地理分层。
目前获得:( 7句话)
1)然而,通常缺乏具有足够可靠性和时间和地理细节的地方,区域和国家土地利用和土地覆盖数据,无法准确估算景观变化。
2)U。
3)S。
4)地质调查局的EROS数据中心和美国景观生态学分会。
5)S。
6)环境保护局正在合作开展一项为期四年的研究项目,以记录过去30年来美国相邻土地覆盖变化的类型,分布,比率,驱动因素和后果。7)该项目使用生态区域框架作为地理分层。
答案 0 :(得分:0)
使用nltk
绝对是一个好方法。可以列举如下:
import nltk
text = "However, there is generally a lack of local, regional, and national land use and land cover data of sufficient reliability and temporal and geographic detail for providing accurate estimates of landscape change. The U.S. Geological Survey's EROS Data Center and the Landscape Ecology Branch of the U.S. Environmental Protection Agency are collaborating on a four-year research project to document the types, distributions, rates, drivers, and consequences of land cover change for the conterminous United States over the past 30 years. The project is using an ecoregion framework as a geographic stratifier."
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
for index, sentence in enumerate(tokenizer.tokenize(text), start=1):
print "{}) {}\n".format(index, sentence)
这将显示以下输出:
1) However, there is generally a lack of local, regional, and national land use and land cover data of sufficient reliability and temporal and geographic detail for providing accurate estimates of landscape change.
2) The U.S. Geological Survey's EROS Data Center and the Landscape Ecology Branch of the U.S. Environmental Protection Agency are collaborating on a four-year research project to document the types, distributions, rates, drivers, and consequences of land cover change for the conterminous United States over the past 30 years.
3) The project is using an ecoregion framework as a geographic stratifier.