以下文章来源于白玉兰开源 ,作者白玉兰开源
上海白玉兰开源开放研究院(以下简称白玉兰开源)由上海交通大学牵头,联合中国电子技术标准化研究院、北京大学、机器之心、复旦大学、华东师范大学、开源社等单位于2020年7月在世界人工智能大会闭幕式上揭牌成立,中国科学院院士梅宏任首席科学家。
白玉兰开源开放研究院作为人工智能产业的参与者和推动者,特别联系了云器科技联合创始人&CTO关涛,进行线上专访,以下为专访内容。
白玉兰开源:如何评价大数据平台的演进和发展阶段? 以及开源与SaaS服务的关系?
关涛: 大数据的发展已经 20 年,目前进入普惠期。具体来说,大数据平台经历了 2003 - 2010 年的 10 年孕育期,以及后来以 Hadoop 为核心延伸发展期。从 2020 年开始,大数据行业正式进入普惠期,或以 Snowflake 2020 年上市为标志。这意味着少数平台经过了激烈竞争逐步形成了规模效应,大数据平台也需要持续融合和支持成熟的技术,以更好地服务并普惠企业。
下图显示了大数据技术发展到爆发期、发展期以及普惠期。横轴表示时间,分为 5 个阶段;纵轴表示影响力和预期。曲线表示技术发展过程。
在不同的阶段,使用产品/技术的客户群不同,对产品形态选择也不同。大概总结:
-
创新和爆发期,是少量高科技企业和创业公司作为主体参与,他们既是用户也是构建者。同时领域架构还在加速迭代中,不够成熟变化很多。开源模式能比较好的应对变化,也能在少量用户中形成自循环。从大数据历史开,Hadoop体系的成功就来源于此。
-
发展和普惠期,这一阶段价值场景清晰,技术架构开始趋于稳定,用户从高技术企业转向大量的传统企业,同时开始大规模应用,对稳定性、安全性等要求都更高。用户不再关注开源代码,也没有意愿或能力做二次开发改造。这一阶段企业级服务模式的产品成为主流。特别的,当云成为IT基础设施的标准,SaaS模式企业级数据平台,更适应这阶段的发展,会被广大客户采用。Snowflake的成功也是基于此。
白玉兰开源:在当下生成式 AI 飞速发展的背景下,数据与 AI 的关系如何?
关涛: 数据与 AI 的关系可以用一个视频直播推荐的例子来说明。在这个场景中, AI 抽取出大量非结构化数据用于推荐,同时也需要结构化的用户画像数据存放在数据库中。这两类数据需要融合在一起,因为推荐系统需要将推荐内容与用户群进行匹配,才能生成最终的个性化推荐。可以看出,企业在某些方面需要利用 AI 推荐,而在其他方面又需要依赖Data大数据支持。两者的关系,目前是在加速融合。
这就需要传统数仓技术转型,主要是两个方面:
1)数据平台需要全频谱的数据,也就是需要同时支持结构化数据以外的其他类型数据,包括音/视/图/文本数据在内。
2)底层数据需要能同时支持多种引擎而不仅仅是SQL分析引擎,这对存储系统开放性的要求高很多。
白玉兰开源:关于 AI 时代下企业的数据平台布局和选型,有什么建议?
**关涛:**有三点建议:
- 如果可能建议选择云平台,云具有极大的灵活性,易于架构迭代。最好采用多云设计。
- 建议采用湖仓一体架构。随着 AI 的兴起,Data+AI 是确定的大趋势。开放式一体化湖仓架构既支持原数据 BI,又结合 AI,灵活性强。
- 根据公司体量。中小企业宜选择简单易用的平台,重要的是业务适用性,而非技术本身。