基于八爪鱼和云器DataGPT,实现至简的网页数据获取与对话式数据分析

从简单走向简单

数据的重要性不言而喻。它不仅是企业决策的基础,也是创新和发展的动力。然而,传统的数据采集和分析方法往往复杂且耗时,往往需要使用者具备代码(SQL/Python)编写能力,这限制了数据的快速应用和价值的最大化。因此,我们提出了一个方案思想——“从简单走向简单”,不管是数据获取还是数据分析,都采用无代码的方法,旨在通过简化数据采集和分析流程,让更多人能够快速、直观地获取所需信息,从而提高数据处理效率,并通过数据获得深入见解。每一份报告,都因为你独特的数据内容而独特!每一页PPT,都因为你的深入见解而让人折服!

方案组成

其中,八爪鱼采集器是一款功能强大且操作简便的数据采集工具,它能让用户无需编写代码就能采集网站数据。无需学习复杂的编程技术,轻松上手,仅需简单三步就能获取网页数据。

云器DataGPT是一款创新的对话式AI数据分析工具,引领了从传统仪表盘和复杂报告向对话式分析的转变。同样无需编码技术,无需安装部署,即开即用,简单三步就能通过流行的自然语言对话问答方式对获取的数据进行可视化分析。

云器Lakehouse是云器DataGPT底层的数据存储和处理平台,对于云器DataGPT用户来说,无需关注底层的复杂性,就能享受无限存储和极速处理数据的便利。

方案指南

方式一:以Excel文件作为数据交换格式,适合无数据库背景的用户使用。具体实现步骤如下:

八爪鱼:

  01、创建任务    通过点击鼠标配置页面数据捕捉方式。

  02、开始采集    

开始进行采集,等待采集完成后,检查采集到的数据是否符合预期。要提前留意本地采集和云采集在导出数据上的不同。因为方式二支持导出到 MySQL,而本地采集不支持,所以选择了云采集方式。

检查采集到的数据是否符合预期:     首先,需要对采集到的数据进行全面的审查和分析。这包括数据的准确性、完整性和一致性。准确性是指数据是否准确无误地反映了实际情况;完整性是指数据是否涵盖了所有预期的信息;一致性是指数据在不同来源或不同时间点是否保持一致。     接着,要将采集到的数据与预期的标准和规范进行比对。例如,数据的格式是否符合要求,数据的取值范围是否在合理的范围内,数据的逻辑关系是否正确等。     然后,还需要检查数据的合理性。通过对数据的观察,判断数据是否存在异常或不合理的波动。

  03、数据导出    

导出数据为Excel文件。八爪鱼采集到的数据,支持自动导出数据到本地文件,文件格式包括Excel、CSV、html、json、Xml,注意团队版和企业版才支持该功能,如需自动导出到本地文件,请升级到账号到对应套餐版本。

云器DataGPT:

  04、导入数据    

导入刚才下载的Excel文件里的数据

  05、数据标注    

对字段增加必要的描述和别名,以方便大模型理解数据,并提高问答过程中自然语言和数据定义的一致性。云器DataGPT会根据提供的信息自动生成字段描述和别名,只是需要用户选择和确认一下,这极大的降低了数据标注的工作量。

  06、数据分析    通过自然语言问答的方式进行数据分析。   

 问一下:不同门类的专业数量

问一下:管理学都设置了哪些专业

问一下:人气值最高的专业类别,前10个,不包括类型为0的

问一下:不同专业门类毕业后的平均薪酬

问一下:哪些专业开设了素描课程

看起来刚下载的数据里还有很多有趣的问题等你来探索呢!

方式二:使用MySQL协议从八爪鱼直接同步数据到云器Lakehouse,适合无数据库背景的用户使用。具体实现步骤如下:

八爪鱼:

  01、创建任务:通过点击鼠标配置页面数据捕捉方式

  02、开始采集:并等待采集完成,并检查采集到的数据是否符合预期

  03、数据导出:配置到云器Lakehouse的MySQL连接

  云器DataGPT:

  04、导入数据:创建Lakehouse目标表并添加到DataGPT

  05、数据标注:对字段增加必要的描述和别名,以方便大模型理解数据

  06、数据分析:通过自然语言问答的方式进行数据分析

  和方式一不同的是MySQL数据库的配置,这里介绍如下:

  八爪鱼采集到的数据,支持导出到Mysql数据库中。可手动导出,也按照设置的定时导出计划,自动导出。

  云器Lakehouse支持MySQL方式的访问方式,可以直接将数据通过MySQL协议导入到云器Lakehouse,这样就不需要云器Lakehouse自己的JDBC驱动,直接适应已有的MySQL JDBC驱动即可,极大的提高了便利性。

  将数据导出方式选择为“导出到数据库”,并选择MySQL(云器Lakehouse支持MySQL协议):

  配置数据库信息:

通过MySQL连接云器Lakehouse的配置请参考

https://www.yunqi.tech/documents/use-mysql-client

总结

本文介绍了一种基于八爪鱼和云器 DataGPT 的方案,旨在简化网页数据获取与对话式数据分析流程,提高效率和响应速度。该方案包括八爪鱼采集器、云器 DataGPT 和云器 Lakehouse 三个部分,分别用于数据采集、分析和存储处理。方案提供了两种方式,一种是以 Excel 文件作为数据交换格式,适合无数据库背景的用户;另一种是使用 MySQL 协议从八爪鱼直接同步数据到云器 Lakehouse,适合有数据库背景的用户。

在日常的工作、学习、科研中,越来越多的需要通过数据说话。无论是企业的决策制定,还是学术研究的深入探索,又或是个人学习的数据分析,数据都扮演着至关重要的角色。

在工作方面,精准的市场调研数据能够帮助企业准确把握市场需求,优化产品策略,从而在激烈的竞争中立于不败之地;详细的销售数据分析可以揭示潜在的客户需求和消费趋势,为企业的业务拓展提供有力支持。

在学习中,通过对学生学习成绩和行为数据的分析,教师能够因材施教,制定更具针对性的教学计划,提升教学效果;学生也可以借助自身的学习数据,了解自己的优势和不足,及时调整学习策略,提高学习效率。

在科研领域,大量的实验数据和观测结果是得出科学结论、推动学科发展的重要依据。科研人员需要对海量的数据进行整理、分析和解读,从中发现规律,探索未知。

因此,赶快开启你的数据化之旅吧!让数据成为你运营、管理和决策的有力助手,为你的工作、学习和科研带来新的突破和发展。

这一切,都因为八爪鱼和云器DataGPT的完美集成,让你的实践自始至终保持简单,从数据获取到数据分析,快来获得从简单走向简单的体验吧!

这里也提供下八爪鱼的下载地址,方便你进行实践:https://www.bazhuayu.com/

以及云器Lakehouse和DataGPT的开通地址https://accounts.clickzetta.com/register快速入门

 

数据能手,非你莫属!

联系我们
预约咨询
微信咨询
电话咨询