数据湖的释义
数据湖用于将大量采用其原生、原始格式的数据存放在一个中心位置(通常是云中)。只要利用实惠的对象存储、开放格式和云可扩展性,许多应用就可以利用数据湖中数据所蕴含的价值。
- 所有类型的定性数据,包括非结构化(通常称为大数据)和半结构化数据都可以存储。对于当下的机器学习和高级分析用例来说,这一点十分关键。
- 在联网空间中,将基础设施和端点遥测看作描述符或分类器,而描述符或分类器可馈送 AI/ML 模型和算法以识别基线和异常。
- 作为客户,您的基础设施和端点客户端会馈送数据湖,您的联网供应商会维护数据湖以交付基于 AI 的工具来协助 IT 更高效地运营网络。
数据湖中存储了什么内容?
联网空间中的数据湖由使用供应商云管理解决方案的不同客户的网络遥测(基础设施和端点)组成。供应商负责管理和保护数据湖,此外,也负责开发面向客户的工具。客户和 IT 不必执行与数据湖相关的特殊任务。云托管网络基础设施专为将管理相关数据转发到云而设计,因此以简单的渐进过程提供遥测值,以作为网络性能和偏差的基准。
数据湖要求包括:
- 大量数据 – 事实上,对于机器学习来说,种类才是关键。您并不需要数据湖来提供单一数据集。
- 机器学习架构 – 这其中就包括联网供应商为执行多种分析(从差异分析到因果分析和对结果的预测)而使用的库、数据科学和其他工具。
数据湖的优势
客户可享受的数据湖优势包括:
- 动态基准 – 可针对其站点的网络性能调整,无需手动设置 SLE。
- 对比 – 以自己的数据为基础,重点显示类似站点出现问题的位置。
- 优化提示 – 以类似客户站点行为的性能数据为基础。
- 重新训练 AI/ML – 随着新技术、基础设施和端点的出现而不断进行训练。
云数据湖与本地数据湖有什么区别?
数据湖属性 | 云 | 本地 |
---|---|---|
数据安全 | 云提供商专业知识/最佳实践 | 气隙技术和手动配置 |
内存 | 按需扩展 | 需要更多设备 |
CPU | 按需扩展 | 需要更多设备 |
存储 | 按需扩展 | 需要更多设备 |
配置推荐 | 可从多个租户站点获取洞见 | 仅限于一个客户的数据/配置 |
以同行比较为基准 | 可用于各用户站点和类似“同类”站点 | 仅限于一个客户的数据/站点 |
重新训练及使用 AIOps 模型 | 可从云托管 GUI 自动及即时使用 | 需要手动升级软件到管理 GUI |