我有一个数据块(约3万个),其中的htmls页面和png保存在网站的文件夹中。这些文件夹的标题基于一些随机生成的哈希值。我的主管希望我处理这些数据块,并从每个HTML页面中提取一些属性,并将其存储在DB中以备将来使用。要提取的属性包括HTML的页面标题和版权部分。 根据我的理解,该数据是非结构化的,因为目前文件夹数据中没有每个说法。而且,存在某种HTML的固有结构,但是基本上每个页面都与其余页面相互分离,这符合非结构化的条件。如果我错了,请纠正我。
经理希望将数据存储在ELK堆栈中。通过存储,他目前还不清楚,但是到目前为止,他希望提取并存储每个HTML文件的完整HTML文件,标题和版权。这是我首先需要解决的问题。
我还没有使用ELK堆栈,我认为这将是一个很好的学习机会。在阅读在线教程时,我了解到它本质上是用于从不同的应用程序服务器解析日志,并以可呈现和可搜索的方式存储和可视化它们。
到目前为止,最终目标是处理这些数据并存储属性,并在需要时搜索属性并根据将来的需要使用它们。例如,如果经常出现特定的版权文本,则获取该版权文本并将其用于分类涉及我的第三个也是最后一个问题的特定模式。