业务重点,数据优先。
在我从事互联网行业十多年的工作生涯中,我的大部分时间都是数据操作。从QQ秀到YY语音到迅雷,我经历了产品数据操作的流程优化,平台构建,分析和应用。 ,经历了产品中数据的重要地位。
许多人对数据操作的理解仅限于数字统计,原因分析等。事实上,这些只是数据操作的一小部分。数据最终用于产品服务,数据操作和专注于运营。数据只是一种工具。
这篇文章是8200字。
很多人一直在问,数据运营是做什么的?
个人理解是:制定产品目标,创建数据报告渠道和规则流程,观察产品数据,制作数据早期预警,分析数据变更原因,根据分析结果优化产品和操作,并对未来数据趋势进行预测。决策为将数据应用程序集成到产品规划和操作中提供了基础。
从广义上讲,数据操作了解以下五个问题:
我们要做什么?——目标数据制订;
现状是什么?——行业分析,产品数据报表输出;
数据变化的原因?——数据预警,数据变化的原因分析;
未来会怎样?——数据预测;
我们应该做什么?——决策与数据的产品应用。
我们如何建立完整的产品数据操作系统?我根据我在YY工作中的经验进行了分类和总结。整个过程可分为以下11个步骤供您参考。
第1步、制订产品目标
这是数据操作的起点,也是产品上线后评估产品的标准,从而形成一个闭环。不应该制定目标,可以根据业务发展,行业发展,竞争产品分析,前几年的产品开发趋势和产品转换规则来计算。目标是衡量常用的SMART原则。
(1)S代表具体(Specific)
指工作指标具体而不能一般。例如,如果我们开发YY基于语音的体验的产品目标,如果它是为了增强产品体验,那么它就不够具体,并且每个人的理解都是不一致的。那时,我们的基本产品目标是第二天加强新用户的保留,这是非常具体的。
(2)M代表可度量(Measurable)
指绩效指标是定量的还是行为的,验证这些绩效指标的数据或信息是否可用;为了提高第二天新用户的保留率,您需要提供具体的值。
(3)A代表可实现(Attainable)
指在可以实现绩效指标的情况下努力,避免设定过高或过低的目标;当我们基于YY新用户的第二天保留率时,新注册用户的第二天保留率不是由头部制作的。历史数据和行业参考值对游戏用户的新注册用户保留率设置相对较低具有挑战性的目标是将新注册用户的保留率从25%提高到35%。
(4)R代表相关性(Relevant)
它与工作的其他目标有关;绩效指标与工作有关;新用户的保留率与用户行为密切相关,例如用户对语音工具的识别以及用户对YY平台的偏好。学位等等,使新用户的第二天保留和产品性能,内容流行度有很强的相关性。
(5)T代表有时限(Time-bound)
专注于完成目标的具体截止日期。
产品目标可按如下方式制定:截至2013年12月31日,新YY语音用户的第二天保留率将从25%提高到35%。
新用户次日留存率的提升,意味着更多用户的活跃转化,带动整个用户活跃数量的增长。
第2步、定义产品数据指标
产品数据指标是反映产品健康发展的具体的数值,我们需要明确定义数据指标,例如数据报告方法,计算公式等。
例如,第二天的保留率可以定义为:第二天的保留率是一个比率,分母是在同一天新注册的YY账户的数量,并在同一天登录到YY客户端日,分子是第二天再次登录YY客户端的分母。 YY账户的数量。
请注意这里的细节。在第一天和第二天,您需要有一个明确的时间点,例如0到24,计算为一天。问题是,新用户在第一天23点注册并登录YY客户端。结束,到第二天凌晨1点下线;根据上面的定义,这个用户可能不会被记录为第二天留住用户,因为没有明确的数据报告详细定义。
定义是第二天再次登录YY客户端。上述案例的用户第二天没有登录行为,但他确实是连续两天登录的用户。
因此,针对这个定义,需要补充细节:用户登录状态。如果在5分钟内报告心跳包,则可以将新用户报告为第二天的登录状态用户。如果它在0:5之前离线,它将继续。直到第二天24点,仍然没有登录状态,那么它将不会被记录为保留用户。
我们根据产品目标选择数据指标,例如网络产品,并且通常使用PV,UV,崩溃率,人均PV和停留时间来测量数据。要定义产品指标体系,每个团队(如产品和开发)都需要达成共识。数据指标的定义清晰且文档齐全,不会对数据解释的理解产生差异。
第3步、构建产品数据指标体系
在数据指标的基础上,我们根据产品逻辑组织指标,使其组织起来。
新用户的第二天保留率是我们订阅的核心目标。但事实上,仅查看第二天的保留率是不够的。为了更准确地了解产品,还需要全面检查影响用户保留率的各种因素。健康成长。如图所示,它是一种常用的指标系统,包含:用户新增、用户活跃、付费、其他数据。
互联网产品通用数据指标系统
当我们在做YY语音客户端产品时,我们将使用以下指示系统,包括:账号体系、关系链数据、状态感知数据、沟通能力等四大方面。具体指标有:好友的个数分布、观看频道节目的时长、IM聊天时长、个人状态的切换与时长等,如下所示:
IM即时通讯产品数据指标系统
第4步、提出产品数据需求
产品索引系统的建立不是一步到位的过程。根据产品开发的不同阶段,产品经理专注于数据需求。一般公司将有一个产品需求文档模板,方便产品和数据报告开发,数据平台和其他部门。同事沟通并进行数据建设。创业型中小企业,对产品数据的需求据报道是1-2人,但也建议建立数据文件,如数据指标的定义,数据计算逻辑。
下图显示了我在YY语音客户端团队中建立的基本产品数据要求实施过程。
YY业务部门基本产品数据要求实施流程图(试用)
第5步、上报数据
此步骤是根据产品经理的数据要求开发,根据数据报告规范,完成报表开发,并将数据报告给数据服务器。报告数据的关键是构建数据报告渠道。原来,在腾讯工作时,我没有意识到这个环节的困难,因为数据平台部门已经完成了完整的数据通道构建,并且数据是根据一定的规则使用统一的数据SDK开发的。可以报告它。
后来,在YY,它是一家开发公司,它是从报告渠道开始的,这也为我提供了更多的改进机会。最关键的一个方面是数据报告测试,这导致了不必要的麻烦,因为此链接的测试资源不到位。
很多创业公司都没有自己的数据平台,他们可以使用第三方数据平台:网络产品,可以使用百度统计(tongji.baidu.com);移动产品,你可以使用Youmeng(www.umeng.com),TalkingData(平台如www.talkingdata.com)。
第6-8步、数据采集与接入、存储、调度与运算
每一步都是学习。例如,收集数据涉及界面创建,考虑数据字段的可扩展性,数据收集过程中的ETL数据清理过程,客户数据报告的正确性检查等;数据存储和调度,操作在大数据时代,它是一项非常具有挑战性的技术。
1. 数据的采集与接入
ETL是Extract-Transform-Load的缩写,用于描述从源到目标的数据提取,转换和加载过程。术语ETL更常用于数据仓库,但其对象不仅限于数据仓库。 ETL是构建数据仓库的重要部分。用户从数据源中提取所需数据,通过数据清理数据,最后根据预定义的数据仓库模型将数据加载到数据仓库中。
下图是产品数据系统的常见流程图。数据采集,存储和计算通常在图的数据中心完成。
数据系统流程
确认数据报告后,接下来的几件事情更具技术性。报告数据的第一种方法是收集并存储在我们的数据中心。
数据收集分为两个步骤。第一步是从业务系统向服务器报告。这部分主要是通过cgi或后台服务器。调用统一logAPI后,原始管道数据将存储在logServer中。当这部分数据很大时,您需要考虑使用分布式文件存储。外部分布式文件存储主要是HDFS。它不会在这里扩展。
原始数据将报告给存储在文件
中的文件的架构数据存储在文件中后,第二步是进入ETL。 ETL是指根据分析要求和数据范围从文本中提取,转换和加载日志。然后将其存储在数据仓库中。
以腾讯为例:腾讯的大数据平台现在支持离线和实时的海量数据访问和处理。核心系统包括TDW,TRC和TDbank。
腾讯数据平台系统
在腾讯内部,数据收集,分发,预处理和管理都通过TDBank平台实施。整个平台主要解决大数据量下大量,实时,多样化的数据采集和处理问题。统一访问和存储问题通过三层体系结构解决,例如数据访问层,处理层和存储层。
(1)接入层
访问层可以支持各种格式的业务数据和数据源,包括不同的DB,文件格式,消息数据等。数据访问层将收集的数据统一为内部数据协议,便于后续数据处理系统。
(2)处理层
然后,处理层以插件形式支持各种形式的数据预处理。对于离线系统,一个重要的功能是对实时收集的数据进行分类和存储。需要根据特定维度(如键值+时间维度)进行分类;同时,存储文件大小(大小/时间)。 )还需要进行自定义,以使脱机系统能够以指定的粒度执行脱机计算。对于在线系统,常见的预处理过程,如数据过滤,数据采样和数据转换。
(3)数据存储层
处理后的数据使用HDFS作为脱机文件的存储载体。确保数据存储整体可靠,然后最终将处理后的数据放入腾讯内部的分布式数据仓库TDW中。
TDW架构图
TDBank实时从业务数据源收集数据,执行预处理和分布式消息缓存,并根据消息订阅的方式将其分发到后端离线和在线处理系统。
TDBank数据采集和访问系统
TDBank在数据源和数据处理系统之间架起了一座桥梁,将数据处理系统与数据源分离,并为离线计算TDW和在线计算TRC平台提供数据支持。通过持续改进,以前的Linux + HDFS模式更改为群集+分布式消息队列模式,并且前一天可处理的消息量缩短为2秒!
从实际的角度来看,在考虑产品数据的收集和访问时,产品应该主要关注几个纬度问题:
多个数据源的统一,在实际应用过程中,存在不同的数据格式来源。此时,此部分的收集和访问需要对这些数据源进行统一转换。
该系列实时高效。由于大多数系统都是在线系统,因此数据收集的及时性会更高。
对于一些将影响整个分析统计数据的脏数据,需要在访问层进行逻辑屏蔽,以避免随后的统计分析和应用,因为这部分数据会导致许多不可预测的问题。
2. 数据的存储与计算
报告并收集和访问数据后,数据进入存储链接并继续使用腾讯作为示例。
在腾讯内部,有一个用于存储数据的分布式数据仓库。内部代码名称为TDW。它支持离线存储和100-PB数据计算,为业务提供大规模,高效,稳定的大数据平台支持和决策支持。基于Hadoop和Hive的开源软件,并基于公司的大量数据,计算复杂性等具体情况,进行了大量的优化和转换。
根据已发布的数据,TDW基于开源软件hadoop和hive进行了大量的优化和转换。它已成为腾讯最大的离线数据处理平台。集群机总数为5,000台,总存储量超过20PB,日均计算量超过500TB,占腾讯商业产品的90%以上,包括广角推荐,用户肖像,数据挖掘和各种业务报告,全部通过该平台提供基本功能。
腾讯TDW分布式数据仓库
TDW业务图
从实际的角度来看,这部分数据存储主要考虑几个问题:
数据安全性,很多数据是不可恢复的,因此数据存储的安全性和可靠性始终是最重要的。一定要投入最多的精力去关注。
作为存储源的数据计算和提取的效率将在以后面临许多数据查询和提取分析工作,并且需要确保该部分的效率。
数据一致性,存储数据主和备份以确保一致性。
第9步、获取数据
它是产品经理,数据分析师从数据系统获取数据的过程,常见的方式是数据报告和数据提取。
报告的格式在数据需求阶段通常是明确的,特别是对于已经积累的公司,通常会有报告模板,只需填写指标。可以根据分析需求和自助服务选择字段(标题)配置和计算功能强大的数据平台。
以下是设计数据报告的一些指导原则:
1. 提供连续周期的查询功能
(1)报告应提供查询的开始时间,您可以在指定的时间范围内查看数据。禁忌中只有一个时间点,无法看到数据趋势。
(2)可以对特定时间段内的数据进行分段或聚合,并可以比较不同的阶段。
2. 查询条件与维度相匹配
(1)提供了多少维度,以及提供了多少对应的查询条件。尽量满足每个维度进行分析。
(2)查询条件应提供特定值的打开,关闭和过滤。你可以看一下整体,你可以看到细节,你可以看到单曲。
(3)查询条件的顺序应尽可能接近维度的顺序,最好是从最大到最小。
3. 图表与数据要一致
(1)图表显示的趋势应与相应的数据一致,以避免反对数据; (2)有图表时必须有数据,但数据没有图表; (3)图中的指标不宜过多,指标之间的差距不宜过大。
4. 报表要单一
(1)报告只有一个分析功能,多个功能应尽可能分成不同的报告; (2)尽量不要跳进报告;
(3)报告仅提供查询功能。
看几个常用报告,WEB产品流量报告,来自百度,关注PV,UV,新访问者比例,跳出率,平均访问持续时间等。
具体来说,跳出率,这个数据反映了用户登陆页面的价值(不一定是主页),是否可以吸引用户点击,如果用户到达登陆页面,没有点击,跳出率就会增加。
百度统计网络数据报告
查看友盟数据平台提供的产品保留数据报告,保留率通常要注意:1天后保留,7天后保留和30天后保留。
Union的保留数据报告
在产品操作中,数据提取是一种非常常见的要求,例如提取具有良好销售和相关领域的某批货物,并提取具有指定条件的一批用户。同样,一个更完整的数据平台,会有一个数据自提取系统,无法满足自助服务的需求,需要数据开发和编写脚本进行数据提取。
如上图所示,腾讯的内部数据门户承担了许多产品的数据报告,数据提取和数据报告功能。
腾讯数据门户网站
第10步、观测和分析数据
这主要是对数据变化的监测和统计分析。通常,我们会自动化数据的每日报告输出并识别交易数据。数据的视觉输出非常重要。
常用的软件是EXCEL和SPSS。可以说它是数据分析的基本技能。稍后,我将分享在实际工作中使用这两个软件的方法和技巧。应该注意的是,在数据分析之前,检查数据的准确性以确定数据是否是您想要的,例如,从数据定义到报告逻辑,是否严格按照需求文档,以及数据是否报告通道是可能存在数据丢失,建议执行原始数据提取和采样分析以确定数据的准确性。
数据解释在此链接中非常重要。同样的数据,由于产品熟悉度和分析经验的差异,解释结果也大不相同,因此产品分析师必须对产品和用户有很好的了解。
绝对值通常难以解释,通常通过比较表达数据的含义通常更好。
例如,在产品上线后的第一周,每日注册人数为100,000人。似乎数据很好,但如果这个产品是由YY语音推出的新产品,并且用户通过YY弹出消息触摸它,每天数千次。一万个用户曝光,只有100,000个新添加,不是好的产品数据。
通过比较数据的含义更清楚
纵向比较,如分析YY语音新注册用户的数据变化,可以与上周同期,上个月同期,去年同期相比,是否有类似的数据变化法。
水平比较,也是YY语音新用户注册数据的变化,可以从漏斗模型,用户来源的不同渠道进行分析,看看每个渠道的转换率是否有任何变化,如顶部漏斗,用户访问通道哪些数据有很大的变化,以及通道的哪个部分的转换率发生了变化。还可以执行不同服务的水平比较,例如YY语音新注册数据,多重播放网络流量数据,YY游戏新注册用户数据以进行比较,并找到数据变化的原因。
垂直和水平组合比较是将同一时间段的曲线与多个数据变化进行比较,例如YY新注册用户,多重播放网络流量数据和YY游戏新注册用户的半年度数据变化,以及同时比较三条曲线。找出某个数据异常的关键节点,然后查找操作日志,查看是否有任何组织有运营活动,是否有外部事件,以及是否有特殊日期。
第11步、产品评估与数据应用
这是数据操作闭环的终点,也是一个新的起点。数据报告不是显示,也不是领导层的问题,而是产品优化和操作的服务,就像产品人员的表现一样,不仅仅是观察产品项目是否按时完成并按时发布,有必要不断观察和分析产品数据,评估产品健康状况,并将累积的数据应用到产品设计和操作中。
例如,亚马逊的个性化推荐产品,如QQ音乐猜你喜欢的,比如淘宝的时间机器,如今天的标题推荐阅读等等。数据产品应用程序大致可分为以下几类:
(1)以效果广告为代表的精准营销
推荐期短,实时性要求高;用户的短期利益和直接行为有很大影响;场景上下文和访问群体特征。
产品案例:谷歌,Facebook,微信朋友圈。
(2)以视频推荐为代表的内容推荐
长期利益的累积影响很大;时间段和热点事件;多维内容的相关性很重要。
产品案例:Youtube
(3)以电商推荐为代表的购物推荐
长期+短期利益+综合行为;最接近现实,季节性和用户生活信息是至关重要的;追求订单和交易,支付相关。
产品案例:亚马逊,淘宝,京东
总结
最后,图表汇总数据操作11步骤:
11个数据操作步骤
从产品开发目标到最终产品评估和基于目标的操作优化,形成了闭环数据操作。此流程和规范要求所有部门都具有统一的意识。每个产品终端可以根据标准流程统一报告数据,建立公司级统一数据中心,建立数据仓库,最大化数据价值。数据成为生产力。
如何构建产品数据操作系统?可以从以下五个要素中考虑:
(1)人:专职的数据运营同事
专职的产品同事,负责建立产品数据系统的流程和标准化,促成经验,促进系统的不断优化和发展;专职专业开发同事,负责数据报告,报表开发,数据库开发和维护等,确保产品开发和实施数据系统。
(2)数据后台:全面系统的数据仓库
有一个特殊的统一数据仓库来记录自己产品的特殊个性数据。通用数据充分利用数据平台部门的通用接口来获取和共享数据源,充分降低了成本。
(3)数据前台:固化数据体系展现平台
需要专业的报告开发同事,系统的思维报告系统,灵活的迭代执行,而不是简单地接受报告要求,导致大量的报告。
(4)工作规范:需求实现流程化
它是在上述11个步骤中构建产品数据系统的过程和方法。很好地掌握了数据要求。两个是巩固需求开发的过程,另一个是临时需求工具化。
(5)工作产出:数据应用
常规数据工作是各种数据分析,输出每日,每周,每月报告;基于决策依据的数据分析。进行数据产品开发,例如准确推荐,用户生命周期管理和其他产品规划。
作者:蓝军,BLUES,高级产品专家和运营专家,前腾讯YY语音,高级产品经理,雷霆产品前任总监,现为梅沙科技创始人。
资料来源:汕头商学院(ID:mantousxy)