Question

您好我想从html文档中提取所有句子。我该怎么做？因为有很多条件，比如首先我们需要剥离标签，然后我们需要识别可能结束的句子。要么？要么！也可能有电子邮件地址和网站地址等条件。在他们中我们如何制作这样的剧本？

Answer 1

它叫做编程;）。首先将任务划分为更简单的子任务并实现它们。例如，在您的情况下，我将设计这样的程序：

Answer 2

首先，您应该删除某些标签，这些标签是内联格式化元素，如：

I <b>strongly</b> agree.

但是你应该留下块级元素，比如 DIV 和 P ，因为有更强的分隔符。？和！

然后您必须处理这些块级元素中的内容。通常有一个单词的导航链接，您可能希望稍后将其过滤掉，因此剥离文档的块结构不是正确的选择。

此时，您可以安全地使用正则表达式模式来识别块：

>([^<]+)<

当你有你的积木时，你可以过滤掉短的（导航元素）并使用你的句子分隔符去掉大的（文本段落）。

有一个有趣的问题，当一个持续时间字符表示判决的结束时，它只是一个小数点，但我把它留给你。：）