男士上一篇基于COOKIE的点击流数据仓库构

粉碎设备2020年09月15日

上一篇:基于COOKIE的点击流数据仓库构建思路(一)

站数据是企业数据的重要组成部分,在大型企业中,数据通常以关系型数据仓库进行存储。当然,部分企业也在向基于Hadoop等开源框架的分布式非关系型数据仓库结构转变,但这仍只是少数。大部分公司仍然是关系型数据仓库(RDB)居于主流。接下来的三篇文章会介绍三种基于Cookie的点击流数据仓库构建思路。本篇是第二篇,基于开源的Piwik底层数据的数据仓库作为原型。

Piwik的底层数据表包括piwik_log_visit、piwik_log_conversion、piwik_log_conversion_item、piwik_log_link_visit_action、piwik_goal、piwik_log_action共6个基础表,当然除了这些表以外还有归档表、系统运维表等。

Piwik底层仓库以piwik_log_visit和piwik_log_conversion为事实核心,以piwik_log_conversion_item、piwik_log_link_visit_action、piwik_goal、piwik_log_action为纬度表形成的。

下面是对各个表的基本介绍

piwik_log_visit是站中的行为数据,每次触发Server Call(简单的理解为页面请求)都会触发一条记录。piwik_log_conversion是站中的转化数据(转化包括电子商务转化和目标转化)。piwik_log_conversion_item是对电子商务转化数据的拓展,包含商品分类、SKU、价格、数量等记录。piwik_log_link_visit_action是对访问用户的信息拓展,包括自定义变量、服务器请求时间、各种来源页面的ID等。piwik_goal是对转化目标的拓展,包括匹配类型、目标名称、是否大小写敏感、价值等变量。piwik_log_action是对页面内容的扩展,每个页面在该表中都对应一条记录,包含页面ID、名称、哈希值、类型等变量。Piwik数据仓库的模型如下:

这种模型的好处是把一张大表进行查词拆分,并以访问和转化为拆分依据,库。当然,piwik的数据仓库还是比较简单,由于该工具本身的功能性一般,没有特别多的特色功能,因此也没有很多纬度。不过它的优势在于本地化安装和数据处理,且部署简单,加上其开源性可以节省站系统费用,底层的数据已经经过一轮清洗,开发难度小,比较容易在初创型公司使用。当然,由于是开源的,该工具没有很好的服务支持,专业并且了解底层的站分析师是必须的。

我相信,它的基本功能已经可以满足大多数企业的日常需求,很多商用站分析工具比它好的地方也不过是服务支持较好(看国内服务商情况)、正负向路径的无限扩展(Piwik本身有路径,虽然还不是很强大)、强大的自定义功能(虽然没有太多变量,但piwik的5个自定义群体和虚拟事件基本上可以满足一般需求)、实时数据(Piwik是本地化的尤其是周末连着上课时,实时性根据系统硬件和定时JOB完成)。因此其开源性、结构化数据、本地化是比较吸引我的地方,我知道有的公司已经基于piwik在做数据仓库开发和上层报表的应用支付宝等也将提供口碑外卖入口。有分析认为,中小企业百万级的流量处理能力还是没有问题的。

下一篇:基于COOKIE的点击流数据仓库构建思路(三)

注:相关站建设技巧阅读请移步到建站教程频道。





东莞牛皮癣医院
老年人便秘如何调理
换锁公司电话
相关阅读
《风起陇西》也库姆“关系户”?相貌平平戏份极少,却凭演技被夸

《原作者河东》播出以来,这部电视剧的每个电视剧情都让人印象引人注目。...

2024-12-16
山水重逢,愈见人为 ——KOLON SPORT 可隆举办ODUMAK露营活动

紧接4月末发布全新轻巧的产品、希望大家亲密人为之后,韩国高端的产品品...

2024-07-23
2022绍兴市公务员考试笔试时间重启公告

一、出题一段时间和课程内容 (一)课程内容任用公职人员出题一段时间和课程...

2024-03-05
BJ40城玩系列国潮皮肤发布,“天一”绽放花城魅力

当年,杭州骑行BJ40所发布的“山海”前传3款国潮脸部,让广大故常惊艳连连...

2024-01-23
智能扫地机器人哪个牌子好?5款真香机型盘点,值得收藏家

买农业机械商品,不不让牵牛了钱,就不让钱牵牛了,买回来的东西通用性不...

2023-12-05
像冰箱 微波炉等电器的污渍,不能用碱性太大的清洁剂,这种专用的多功能清洁剂,它是植物萃取精华,气味很

像厨房 微波炉等五金的塑胶袋,不会用碱性多大的清洁剂,这种备有的多功...

2023-11-24
友情链接