我正在做一些网页抓取(遵循robot.txt指南)。
我的目标是将数据标准化(规范化?)为可轻松放入列中的数字。我相信我已经完成了这一点。但是我不确定我是否从源代码中收集了所有相关数据。因此,我计划也存储一些原始数据(类似于源代码,但清理了一点)。
这个清理过的数据大约是每页30,000到40,000个字符。据我了解,TEXT值的最大字符数限制约为65,000个字符。但是,我还读到每行大约65,000字节有一个MAX BYTE限制。它说UTF存储每个字符3个字节的字符。那么有没有办法将这么多文本存储在SQL表中?