📌 导读:
企业使用SaaS工具解决日常工作的需求已是明确的趋势,而数据平台已逐渐成为了支撑企业数据应用创新的标配。在AI大火的今天,数据平台发展趋势是怎样的呢?什么样的数据平台才能够支撑AI时代的企业创新需求呢?
观众朋友们大家好,欢迎来到云器科技频道,今天给大家带来的分享是SaaS企业数据化的再思考,本篇我们会分享SaaS企业数据化趋势洞察和观点。我们会谈到SaaS企业通常使用的lambda架构数据平台的问题和挑战以及业界趋势,了解Single-Engine的技术理念。
根据Crunchbase在2022年的统计,全球有15529家SaaS公司;美国企业平均使用超过100个SaaS应用程序。企业在使用SaaS工具解决日常工作的需求已是明确的趋势,而数据平台已逐渐成为了支撑企业数据应用创新的标配。那么AI大火的今天,数据平台发展趋势是怎样的呢?
我们可以总结三个要点:数据基础设施正在快速迭代发展,正在向更实时、更智能、更普惠的方向加速演进。
我们从一个典型的SaaS应用架构来看,大家可以看到,数据平台已纳入到SaaS软件的标准架构中。
这是因为数据不仅成为了客户的功能必须项,也是用户体验和留存粘性的关键要素,数据平台成为SaaS应用架构重要的赋能引擎。
我们今天的问题是,目前业界普遍采用的数据架构足够好么?有什么样的问题?能够支撑AI时代的企业创新需求吗?
右图是云器经过和业界数百家客户的交流,总结目前典型的数据分析架构图。计算部分的流、批和交互分析分别由三个产品实现,通常采用开源组件,专精于各个方向做专项优化;我们看到的问题就是存储散布在各组件中,数据被强行复制成多份。存储的冗余,是lambda架构作为数据底座的问题,除此以外,还有其他如多租户,扩展和性能成本等诸多问题。
在lambda架构中,流、批和交互分析由于计算形式不同,优化方向不同,难以统一,我们以流计算——以实时化的场景来举例说明。
例如一家企业要加快业务反馈,数据刷新从天进化到分钟或者秒级。通常的链路从业务系统通过kafka、Flink CDC,再到Flink后通过实时数仓呈现,整个过程Flink常驻,维持整个链路的成本不低。
高昂的成本让企业只用得起很小部分的实时数据链路。而如果企业需要全链路的实时化,成本不仅在数据处理,还在数据集成、转换计算等多个方面。
我们整理拆解了成本项目,供大家参考。简单的说,复杂的架构让全链路实时成为一个不经济的选择。
这是今天数据平台的问题之一,流、批、交互三种计算模式彼此之间的问题还有很多。此外数据平台面对的挑战还有AI的方面。
在AI时代,数据平台不仅需要支持BI的结构化数据,还需要支持半结构化和非结构化数据的处理任务。尽管湖仓一体成为了明确的业界公认的趋势,但是企业似乎还没有用到好用的湖仓产品。我们认为这是由于目前业界的湖仓方案没有做到存储、数据管理的统一。
那么,是否有一个新的计算范式,统一流、批、交互三种计算形态,且是统一的湖仓平台?以解决上面谈到的问题和需求?
云器科技提出了Single-Engine技术理念,核心是通过“增量计算”的新计算范式,将所有计算抽象成基于历史结果和增量数据的计算,统一当前独立的流、批、交互三种计算方式。并用一体化的湖仓架构统一存储系统。
另一个技术突破是,就像AI可以优化训练成为围棋大师,AI也可以用于优化数据平台的查询作业,节省计算资源消耗。据测算,仅一项单一的AI优化就可以对标准测试集Q88和Q96的SQL任务优化节省35%以上的的计算成本。未来随着数据平台的不断迭代优化,相信AI技术会更加普惠数据用户:SQL随便写,对于托拉拽图标生成的SQL,平台自动做优化。
云器Lakehouse是以“Single-Engine”为技术理念的一体化数据平台,旨在湖仓架构之上,统一流、批、交互三种计算模式。精益平衡数据新鲜度、查询性能、成本。云器Lakehouse基于多云、一体化架构设计,做到安全、开放和秒级弹性,现已于2023年7月20日正式发布。请搜索“云器科技”或“Single-Engine”,了解更多。