如何能让 DataGPT 回答的更准确
作为一个基于数据的问答系统,准确性尤为重要。系统提供以下手段保障回答的准确性。
1.数据治理
- 数据画像(DataGPT Profile):系统提供数据画像功能,让您了解底层数据集表的数据状态:通过 左侧导航栏->数据-> 数据表,在表详情页中的 统计分析 页签,可以查看数据状态,帮助您做数据治理;通过建立数据的 profile,也有助于有助于通过自然语言找到合适的目标数据
-
表、列描述与列别名配置:为表列添加准确的描述和别名信息,这有助于系统精确将问题与数据做匹配。在左侧导航栏->数据-> 数据表 中,可以分别配置表级别的描述,列的别名(Alias)和列的描述信息(Description)。数据表和列有清晰准确的别名和描述,不同的表和列在名字和描述上歧义越小,回答准确度越高
-
索引开关:对于经常被问题引用的列具体值,可以选择将该列做索引。如区域、产品类别、渠道等常用维度列可以考虑开启索引。(如果有底层数据有更新,可以在 Action 中重新刷新该列值索引)
- 例如问题:2022年7月南区的销售额是多少? 实际表中 region 字段存储的值为 South,如果不添加索引。用 region = '南区' 为条件无法搜出任何值。如果添加索引,系统会将“南区”与原值“South”做相似度匹配,并给出推测提示:
- 例如问题:2022年7月南区的销售额是多少? 实际表中 region 字段存储的值为 South,如果不添加索引。用 region = '南区' 为条件无法搜出任何值。如果添加索引,系统会将“南区”与原值“South”做相似度匹配,并给出推测提示:
- 列类型与用途:请根据列的实际值填写列类型(ColumeType)与用途(Intended For),该选项会影响问题会不会选择该列作为数据来源。
2.划分分析域
拆分业务域,帮助系统更加聚焦在特定数据上
- 预先划分分析域,减少每个Domain里涉及的数据表范围,知识范围
- 针对Domain做提问更为聚焦,同时域(Domain)会绑定用户,能做到表级别的数据隔离
3.创建指标与答案构建器
指标为聚合函数或者聚合函数的计算结果,答案构建器为 SQL 模板定义,为预定义对象。基于指标与答案构建器的回答问题会使准确率大幅提升,如果对于问答准确率有严格要求,建议预先定义好。指标支持别名,用于匹配更多的表达方式。请参考指标与答案构建器
4.采用输入提示
列值智能匹配:启用列值索引功能后,系统将在您输入时提供实时数据值提示,确保查询结果的准确性与相关性。
联系我们