首页>>人工智能->全域数据用户行为拉通理论与实践

全域数据用户行为拉通理论与实践

时间:2023-11-29 本站 点击:1

一、概述

1.1 全域数据用户行为是什么

  在讲全域数据用户行为是什么?我们先说下做这个项目的背景:全域用户行为数据拉通项目,旨在拉通用户在好未来集团的行为数据全貌;覆盖前台事业部如:网校,培优,小猴(原),智康,励步5个事业部用户行为数据,从不同的维度如学生、课程、班级、学科、学年学期、讲次、教学点、教师、教室等做整合,赋能上层应用项目未来画像CDP、未来看板、算法RFM模型、行业大盘本品字典、全域特征池等场景。前期模型主要以需求为主,整体缺少底层沉淀,同时也发现了一些明显问题(需求不易扩展性,数据质量不高,数据质量难定位,行为数据不够全面),基于这些问题,期望在支持上层需求的同时,还能以需求为指引,从底层业务和数据源出发,覆盖更多的前台事业部、体系化梳理和建设用户行为生命周期的更多关键节点,做全域用户行为数据拉通的纵向沉淀。   

从项目背景中不难得出,全域数据:对各事业部的数据做整合,整合对象为各事业部已有的用户行为,如:购课,在网校可能叫:召回/唤醒/续报/扩科, 在智康可能叫订单支付,在励步可能叫:购买,需要对同义不同名用户行为做拉通(同名也同义)

1.2 为什么要拉通全域用户行为

降低成本

技术赋能

数据整合

赋能业务

二、架构设计

整体架构分为三层即:数据源层、数据拉通与建模层、数据应用层

数据源层:这一层是全域拉通的底层数据源,全部来源于各事业部已有的用户行为;

数据拉通与建模层:这一层分为了两部分拉通与建模层,其实还是建模,只不过把现有梳理的行为分为了私有和共有,在此基础上进行建模;

数据应用层:这一层是全域的上层应用部分,如:未来画像,作战地图,全域特征等各个不同的项目使用全域已经拉通好的数据,提供更编辑的使用;

三、建设过程

了解了什么是全域数据和为什么要实现全域,那么接下来就是梳理各事业部已有的用户行为,各事业部行为整体梳理为:268个,使用图形化形式,把每一个行为标注在图形中,构成了事业部的用户行为生命周期

3.1 用户行为生命周期

A:小猴行为生命周期

小猴现有行为生命周期数量:31个 B:励步行为生命周期

励步现有行为生命周期数量:34个 C:网校行为生命周期

网校现有行为生命周期数量:85个 D:培优行为生命周期

培优现有行为生命周期数量:99个 E:智康行为生命周期

智康现有行为生命周期数量:57个

3.2 私有与共有行为

  上面的主要工作是对梳理的行为进行整合,使开发的同学对全域用户行为有整体的认知,明白做这个项目的背景和价值,同时也对收集的这些行为进行了详细的归类,主要分为私有行为和公共行为,每位老师负责不同的数据域,需要对5个事业部的当前行为进行了解,从业务熟悉和每张模型的前后依赖,其主要作用是为了当前行为可以更全的扩展特征,以下是私有和公共行为的一些截图:

1.私有行为

2.公共行为

3.3 具体的打法

上面的所有工作都是在梳理各事业部的全域用户行为,行为有了,那我们到底该怎么去做这件事情呢?

自下而上,根据数仓提供的标准化收集需求模版定期(月末)收集下个月的需求,支持数据中台横向项目.

自上而下,梳理好未来各事业部的用户行为,并标注核心用户行为,结合业务理解数据.

通过 1和2, 可以纵向沉淀出:

<1>: 沉淀模型:有需求时,根据需求设计业务过程,结合一致性维度和事实,支持了项目需求,并且从中总结沉淀模型;无需求时,根据梳理的核心行为,正常进行开发;<2>: 沉淀业务:做需求时,对某一块的业务需要有一定的理解,开发完一个模型,需总结沉淀当前的业务,避免以后踩坑;<3>: 沉淀方法:通过 1和2, 沉淀出全域的开发的整体做法(技术架构和流程),整理TTC文章,与大家一起分享; 在整个打法过程中还有两个很重要的点是: 1.对于一个行为,

一定是从各事业部的DWD进行着手,DWD是经过清洗后的明细层

,对于后面的模型扩展也有一定的帮助; 2.整和一个行为时,

一定按照oneData理论进行模型字段标注,哪些是修饰词,哪些是原子指标,哪些是时间周期等,只有这个标注清楚了,才可自动派生不同的特征

; 具体的模型如下:

模型设计时已经标注清楚了时间周期、修饰词、原子指标

PS: 在接下来的两篇文章中重点和大家一起探讨oneData,这块也是我们做数仓的核心

3.4 总线矩阵

了解该业务过程对应的模型、所属的数据域;

了解该业务过程覆盖的事业部;

了解该业务过程支持的维度; 总线矩阵见知音楼文档:https://yach-doc-shimo.zhiyinlou.com/sheets/dPkpKO27RMuog7qO/ZU74n/ <04 总线矩阵>

3.5 全域建设难点

四、赋能业务

用户图谱:使用开发的自动化特征对高价值特征进行派生, 可快速提供特征平台底层数据源

集团CDP:提供已拉通的用户行为数据,可快速进行计算,减少沟通和计算成本

未来看板:提供积分数据需求查询所需模型,提高开发效率


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:/AI/1019.html