解析和存储大量HTML数据

时间:2019-05-25 04:40:14

标签: html database elastic-stack

我有一个数据块(约3万个),其中的htmls页面和png保存在网站的文件夹中。这些文件夹的标题基于一些随机生成的哈希值。我的主管希望我处理这些数据块,并从每个HTML页面中提取一些属性,并将其存储在DB中以备将来使用。要提取的属性包括HTML的页面标题和版权部分。 根据我的理解,该数据是非结构化的,因为目前文件夹数据中没有每个说法。而且,存在某种HTML的固有结构,但是基本上每个页面都与其余页面相互分离,这符合非结构化的条件。如果我错了,请纠正我。

经理希望将数据存储在ELK堆栈中。通过存储,他目前还不清楚,但是到目前为止,他希望提取并存储每个HTML文件的完整HTML文件,标题和版权。这是我首先需要解决的问题。

  • 将整个HTML文件存储到数据库中是个好主意吗?我属于 认为我们将HTML文件放置在某些设备上的集中式存储中 FS,并针对每个文件存储这些文件的绝对路径 数据库中的条目(顺便说一句,对于PNG,我们已经做了同样的事情)。

我还没有使用ELK堆栈,我认为这将是一个很好的学习机会。在阅读在线教程时,我了解到它本质上是用于从不同的应用程序服务器解析日志,并以可呈现和可搜索的方式存储和可视化它们。

  • 如果任何人都可以对ELK进行评论,如果它对我而言有效,那么
    会很有帮助。

到目前为止,最终目标是处理这些数据并存储属性,并在需要时搜索属性并根据将来的需要使用它们。例如,如果经常出现特定的版权文本,则获取该版权文本并将其用于分类涉及我的第三个也是最后一个问题的特定模式。

  • 将其存储在非关系数据库中然后进行查询是否有帮助 相应地?我认为像mysql这样的RDBMS是更好的竞争者 因为很容易在表格中搜索特定的 标题类型,然后相应地使用它。最终目标不是 可视化,但在需要时可以随时使用数据。

0 个答案:

没有答案