数据湖分析

概述

云器Lakehouse作为一款湖仓一体化的数据平台,可以无缝连接云上对象存储(目前支持云对象存储产品有:阿里云 OSS、腾讯云COS、谷歌GCS、AWS S3),并利用自身一体化的数据处理引擎,结合业界领先的AI能力,高效处理数据湖中的半结构化和非结构化数据。在此过程中,我们采用统一的权限管理方法,确保数据安全与合规性。具体能力包括:

  1. 感知、获取外部数据的能力:随着数据量的不断增长,半结构化和非结构化数据在数据中所占比例越来越大,它们的重要性也日益凸显。
  2. 便捷利用前沿AI技术的能力:深度学习模型和大语言模型(LLM)的多模态能力,极大地降低了从业人员分析半结构化和非结构化数据的门槛。让数据平台便捷地利用这些能力,将数据分析范围从二维表格数据扩展到几乎所有数据(ALL Data),这是分析能力维度的重要提升。
  3. 对数据和文件统一管理和治理的能力:将数据仓库中成熟、完善且通用的权限体系应用到数据和文件(如AI模型文件)上,例如:管控特定用户使用指定的模型文件,处理有权限的数据。同时,能够在组织视角对数据实现全局视图。

以下是具体产品功能的详细介绍:

  1. 数据湖Volume对象:通过整合数据平台与非结构化数据,解决数据平台访问非结构化数据、AI/BI数据割裂的问题。例如,用户可以通过Volume对象轻松地将图片、文本等非结构化数据导入数据平台,进行进一步的分析和处理。
  2. 远程函数(Remote Function):为用户提供低门槛调用AI模型、大语言模型(LLM)分析数据的方法。例如,用户可以通过Remote Function轻松地调用预训练的深度学习模型,对图片进行分类、识别等任务。
  3. 统一湖仓元数据系统:将结构化和非结构化数据整合于统一的Catalog-Schema视图,解决统一的湖仓元数据管理和权限管理问题,简化了数据的整理和访问。例如,管理员可以通过元数据系统为不同部门的员工分配相应的数据访问权限,确保数据安全和合规性。

联系我们
预约咨询
微信咨询
电话咨询