如何为Adtech&Martech构建CDP,DMP和Data Lake

88优德 自定义开发与集成MarTech平台

如何为Adtech&Martech构建CDP,DMP和Data Lake

发布于2021年9月22日,更新于2021年10月14日

十多年来,数据平台一直是程序化广告和数字营销行业的关键组成部分。

像客户数据平台(cdp)和数据管理平台(ddp)这样的平台对于帮助广告商和出版商开展有针对性的广告活动、生成详细的分析报告、运行归类以及帮助他们更好地了解受众至关重要。

数据平台的另一个关键组件是数据湖,它是一个集中式存储库,允许您将所有结构化和非结构化数据存储在一个地方。数据湖收集的数据可以传递给CDP或DMP,并用于创建用户。

在这篇博文中,我们将了解什么是cdp、dmp和数据湖,概述构建它们有意义的情况,并根据我们的经验提供如何构建它们的概述。

为什么要建立CDP或DMP?

虽然市场上有许多CDP和DMPS,但许多公司需要自己的解决方案,以便控制收集的数据,知识产权和特征路线图。

以下是构建CDP或DMP有意义的几种情况:

  1. 如果你是一家AdTech或MarTech公司,想扩大或改善你的技术产品。
  2. 如果您是出版商并希望建立一个挂墙的花园,以将您的第一方数据批准并允许广告商定位您的受众。
  3. 如果您是一家从多个来源收集大量数据的公司,并且希望拥有技术和控制产品和特征路线图。

什么是客户数据平台(CDP)?

一个客户数据平台(CDP)是一种营销技术,它从一系列线上和线下来源收集和组织数据。

cdp通常被营销人员用来收集有关客户的所有可用数据,并将其聚合到一个单一的数据库中,该数据库与公司使用的许多其他营销系统和平台集成在一起,并可从这些系统和平台获取数据。

使用CDP,营销人员可以查看详细的分析报告,创建用户档案,观众,细分和单一客户的观点,以及通过将数据导出到其他系统来改善广告和营销活动。

查看下面的信息图表,了解更多关于CDP的关键组成部分:

单击上面的图像以查看完整的信息图表。

什么是数据管理平台(DMP)?

数据管理平台(DMP)是收集,存储和组织从一系列源收集的数据的软件,例如网站,移动应用和广告活动。广告商,代理商和出版商使用DMP来改进AD目标,进行高级分析,看起来相似的建模和观众延伸。

查看以下信息图表,了解更多有关DMP的主要组成部分:

单击上面的图像以查看完整的信息图表。

什么是数据湖?

数据湖是存储结构化、半结构化和非结构化数据的集中式存储库,通常数量很大。数据湖经常被用作单一的真相来源。这意味着以确保数据正确和验证的方式准备和存储数据。数据湖也是规范化的、重复数据删除的、聚合的数据的通用来源,这些数据在整个公司使用,通常包括用户访问控制。

结构化数据:使用模式格式化的数据。结构化数据很容易在关系数据库中搜索。

半结构化数据:数据不符合数据库的表格结构,但包含允许对其进行分析的组织属性。

非结构化数据:未格式化且处于原始状态的数据。

结构化数据 半结构化或平面数据 非结构化和二进制数据
数据库

日志、CSV、XLM、JSON数据

电子邮件

文件

pdf文档

网页

音频

视频

图像数据

自然语言

文件

许多公司都有数据科学部门或产品(如CDP),它们从不同的来源收集数据,但它们需要一个共同的数据来源。从这些不同数据源收集的数据通常需要进行额外的处理,然后才能用于编程广告或数据分析。

通常,也可以提供不妨碍或原始阶段数据(也称为铜数据)。使用此数据复制方法,我们能够在采样或完整数据集中执行其他数据验证步骤。如果由于某种原因,我们需要处理历史数据的原始阶段也有用,这是不完全转变的。

CDP、DMP和数据湖的区别是什么?

cdp可能看起来与ddp非常相似,因为它们都负责收集和存储客户的数据。然而,它们的工作方式有一定的不同。

cdp主要使用第一方数据,并基于收集和使用个人身份信息(PII)生成的真实消费者身份。这些信息来自组织中的各个系统,并且可以通过第三方数据进行丰富。cdp主要被营销人员用来培养现有的消费者基础。

另一方面,dmp主要负责聚合第三方数据,这通常涉及使用cookie。这样一来,DMP更像是一个AdTech平台,而CDP则可以看作是一个MarTech工具。dmp主要用于加强广告宣传和获取相似的受众。

数据湖本质上是一个系统,它从多个来源收集不同类型的数据,然后将这些数据输入CDP或DMP。

cdp 纯数字 数据湖
专注于市场营销(与已知受众沟通)。 专注于广告(向不知名的受众传播)。 用于存储大量结构化和非结构化数据的集中式存储库,这些数据通常被推送到CDP或DMP中,用于创建用户配置文件和用户。
CDP通常利用第一方数据,但可以富有第三方数据。 DMP通常利用第三方数据,第一方数据作为额外的信息源。 数据中的数据可以分为第一方数据、第二方数据和第三方数据。
CDPS主要使用PII和第一方数据。 dmp传统上使用非pii数据,如cookie id和设备id。
CDP用例 DMP用例 数据湖用例
  • 观众创造和细分。
  • 创建单个客户视图(SCV)。
  • ID管理(例如,ID解析和ID图)。
  • 预测分析。
  • 内容和产品推荐。
  • 观众创造和细分。
  • 观众瞄准。
  • 重新定位目标。
  • 图片建模。
  • ID管理(例如,ID解析和ID图)。
  • 观众的智商。
  • 观众扩展。
  • 数据收集:从多个来源收集结构化和非结构化数据。
  • 数据集成:它使集成新的数据源变得更容易。
  • 分析:实时分析和报告。
  • 数据操作:轮询和处理。
  • 安全:对授权人员的访问控制。
  • 分析:提供在不需要数据传输的情况下运行分析的可能性。
  • 编目和索引:它通过编目和索引提供易于理解的内容。

cdp、dmp和数据湖收集哪些类型的数据?

CDPs、dmp和数据湖收集的数据类型包括:

第一方数据

第一方数据是直接从用户或客户那里收集的信息,被认为是最有价值的数据形式,因为广告商或出版商与用户有直接的关系(例如,用户已经与广告商进行了互动)。

第一方数据通常来自:

  • Web和移动分析工具。
  • 客户关系管理(CRM)系统。
  • 事务处理系统。

乙方的数据

许多出版商和商家通过在他们的网站上添加第三方追踪器,或在他们的应用程序中添加跟踪sdk,并将其受众的数据传递给数据经纪人和dmp来实现数据货币化。

该数据可以包括用户的浏览历史,内容交互,购买,由用户输入的简档信息(例如,性别或年龄),GPS地理位置等等。

基于这些数据集,数据代理可以创建关于兴趣、购买偏好、收入群体、人口统计等的推断数据点。

这些数据还可以从线下数据提供商(如信用卡公司、信用评分机构和电信公司)进一步丰富。

How-DMPS工作

cdp、dmp和数据湖如何收集这些数据?

CDPS,DMP和数据湖泊收集数据的最常见方式是:

  • 通过服务器到服务器连接或API与其他AdTech和MarTech平台集成。
  • 向广告商或发布者的网站添加标签(也就是JavaScript代码片段或HTML像素)。
  • 从文件导入数据,例如,CSV,TSV和镶木地板。

在构建DMP或CDP时常见的技术挑战和要求

CDP和DMP基础架构均旨在处理大量数据,因为CDP或DMP可以用于构建段的数据越多,其用户的有价值(例如,广告商,数据科学家,出版商等)。

然而,数据收集的规模越大,基础设施设置就越复杂。

由于这个原因,我们首先需要适当地评估需要处理的数据的规模和数量,因为基础设施设计将依赖于许多不同的需求。

以下是在构建CDP或DMP时需要考虑的一些关键要求。

数据源流

数据源流负责从用户/访问者那里获取数据。这些数据必须被收集并发送到跟踪服务器。

数据来源包括:

  • 网站数据:网站上的JavaScript代码用于检查浏览器事件。如果一个操作是由访问者执行的,那么JS代码将创建一个有效负载并将其发送到跟踪器组件。
  • 移动应用程序数据:这通常涉及到使用SDK,它可以收集第一方应用程序数据。这些数据可能包括用户身份数据、配置文件属性以及用户行为数据。用户行为事件包括移动应用程序中的特定动作。跟踪器组件收集从SDK发送的数据。

数据集成

有多个数据源可以合并到CDP或DMP的基础架构中:

  • 自身的数据集成:这包括由跟踪器和来自其他平台的数据收集的数据。
  • 乙方数据集成:通过与数据供应商(如信用报告公司)的整合收集的数据,可用于丰富个人资料信息。
  • 第三方数据集成:通常是通过第三方追踪器,例如网站上的像素和脚本,以及移动应用程序中的sdk。

配置文件数量

知道将存储在CDP或DMP中的概要文件的数量对于确定用于存储概要文件的数据库类型至关重要。

由于配置文件数据库负责身份解析,它在配置文件合并中起着关键作用,对于适当的段分配,它是CDP或DMP基础设施的关键组件。

数据提取与发现

CDP和DMP的一个常见用例是为数据科学家提供一个接口,这样他们就有了一个通用的规范化数据源。

经过清理和重复数据删除的数据源是非常有价值的输入,可以用于为机器学习目的额外准备数据。这种类型的数据准备通常需要创建一个数据湖,在其中将数据转换并编码为机器可以理解的形式。

有许多类型的数据转换,例如:

  • OneHotEncoder
  • 哈希
  • LeaveOneOut
  • 目标
  • 序数(整数)
  • 二进制

为机器学习选择合适的数据转换类型和设计良好的数据管道需要开发团队和数据科学家之间的协作,这些数据科学家分析数据并提供有关机器学习需求的有价值的输入。

此外,机器学习可用于创建事件预测模型以生成聚类和分类作业,并聚合和转换数据。这可能导致发现可能在人眼中最初看不可见的图案,但在施加转化后变得非常明显(例如,过平移转换)。

需要由CDP和DMP基础设施支持的分段类型也会影响基础设施的设计。

以下类型的段可以包括:

  • 基于属性的段(人口统计数据,位置,设备类型等)。
  • 基于事件(如点击电子邮件中的链接)和行为频率(如每月至少访问一个网页三次)的行为分类。
  • 基于机器学习执行的分类的段:
    • LOOKALIKE /亲和力:LikeAlikike / Advinity建模的目标是支持观众扩展。观众扩展可以基于各种输入,并由类似功能驱动。最后,您可以想象一个自我改进的循环,在那里我们选择具有很多转换的配置文件并创建亲和力受众。这导致具有更多转换的受众,可用于创建更多的亲和力轮廓等。
    • 预测:预测性定位的目标是使用可用信息预测有趣事件(购买、应用安装等)的可能性,并只针对预测率高的个人资料。

构建数据湖时常见的技术挑战和要求

以下是建立数据湖时的一些共同挑战:

  • 将多个数据源组合在一起以生成任何有用的见解和可操作的数据是很困难的。通常,需要id将不同的数据源绑定在一起,但这些id通常不存在或根本不匹配。
  • 通常很难知道给定数据源中包含哪些数据。有时,数据所有者甚至不知道有什么类型的数据。
  • 还需要清理数据并在ETL管道故障时重新处理它,这种情况会不时发生。这需要手动或自动完成。砖三角洲湖具有自动解决方案,因为它们的Delta表符合酸性。AWS也在实现ACID事务在他们的解决方案之一(受治理的表),但它目前只在一个地区可用。

在处理的第一步中,数据被提取并加载到第一个原始阶段。在第一个阶段之后,根据用例,通常可以获得多个数据湖阶段。

通常,第二步执行各种数据转换,如重复数据删除、标准化、列优先级排序和合并。以下步骤执行额外的数据转换层,例如,数据科学团队或报告目的所需的业务级聚合。

通过将来自AWS的数据湖组件(比如使用众所周知的S3存储机制的Amazon lake Formation)与用于ETL数据管道的Amazon Glue或Amazon EMR结合在一起,我们就能够创建一个集中的、管理的和安全的数据存储库。

在Amazon Lake Formation之上,有一个名为Amazon Athena的公共接口,可以在多个基础设施组件之间使用,并为Amazon Lake Formation提供统一的数据访问方法。

此外,通过使用IAM安全方法,还可以为数据湖添加一层适当的访问级别控制。

如果正确地设计和创建了数据湖,数据的访问可以根据成本进行优化。

此外,由于最终的聚合水平,我们被允许在需要时仅在ETL管道期间执行所需的操作。

一个如何构建CDP, DMP和数据湖的例子

下载本文的完整版本,查看CDP/DMP和数据湖开发项目的示例。

完整版本包括:

  • CDP/DMP和数据湖的主要特征的列表。
  • AWS上的架构设置示例。
  • 请求流。
  • 我们使用的亚马逊网络服务。优德88备用网
  • 不同组件的成本水平分析。
  • 重要的注意事项。

下载完整版以继续阅读

下载并阅读完整版本以查找我们如何设计和构建CDP / DMP和Data Lake,并查看AWS的架构设置示例。

下载完整版本

找到我们如何设计和构建CDP / DMP和Data Lake,并查看AWS的架构设置示例。



搜索

分享这篇文章

免费AdTech & MarTech资源w88优德中文

成千上万的c级管理人员,软件工程师,营销人员和广告商都通过我们的双月刊通讯了解AdTech和MarTech的内部工作——你也可以!今天订阅并获得最新和最好的文章,视频,和指南!