parsing - 如何从HTML页面中巧妙地提取信息？

我正在构建一些可以或多或少地从任意网站中提取关键信息的东西。例如，如果我抓住一个麦当劳页面并想以编程方式弄清麦当劳的开始和结束时间，那么这是一种什么样的智能方式呢？

在一般情况下，也许我也想知道麦当劳是卖鸡翅还是麦当劳的地址。

我的想法是，我将针对time，wings和address提供具体案例，并为这3个案例中的每一个都设置唯一的代码。

但我不确定如何处理这个问题。我已经抓取了网站，并且已经将HTML和相关信息解析为JSON。我当前的方法类似于查找title标记并检查title标记是否包含address或location等关键字。如果title包含那些key words，然后我将浏览当前页面并识别类似地址的内容块，例如城市或国家/地区的内容或包含St或Street字样的内容内部。

我想知道是否有更好的方法来寻找关键数据，寻找更好的起点或反弹一些想法和诸如此类的东西。或者即使有好的文章可以阅读，这也很好。

如果不清楚，请告诉我。

感谢您的帮助。

如何从HTML页面中巧妙地提取信息？

1 个答案: