别被忽悠了!我来谈谈大数据平台的4个要点,你们写的都不是干货

公司要做数据分析,首先要考虑数据的准备,也就是数据平台的建设,最近接触了几个朋友都处于这一环节,而且其中一个在方案选型过程中,也是充满了纠结,而我也并没有在开始阶段给出合理全面的建议。

所以根据自己的认知整理了这篇文章,一是对自己的整理,二是希望通过分享,给大家一些参考的价值。

别被忽悠了!我来谈谈大数据平台的4个要点,你们写的都不是干货

一、为何而搭建数据平台

业务跑的好好的,各系统稳定运行,为何还要搭建企业的数据平台?

这样的问题,心里想想就可以了,不要大声问出来。我来直接回答一下,公司一般在什么情况下需要搭建数据平台,对各种数据进行重新架构。

从业务上的视角来看:

1.业务系统过多,彼此的数据没有打通。这种情况下,涉及到数据分析就麻烦了,可能需要分析人员从多个系统中提取数据,再进行数据整合,之后才能分析。一次两次可以忍,天天干这个能忍吗?人为整合出错率高怎么控制?分析不及时效率低要不要处理?

从系统的视角来看:

2.业务系统压力大,而不巧,数据分析又是一项比较费资源的任务。那么自然会想到的,通过将数据抽取出来,独立服务器来处理数据查询、分析任务,来释放业务系统的压力。

3.性能问题,公司可以越做越大,同样的数据也会越来越大。可能是历史数据的积累,也可能是新数据内容的加入,当原始数据平台不能承受更大数据量的处理时,或者是效率已经十分低下时,重新构建一个大数据处理平台就是必须的了。

上面我列出了三种情况,但他们并非独立的,往往是其中两种甚至三种情况同时出现。一个数据平台的出现,不仅可以承担数据分析的压力,同样可以对业务数据进行整合,也会不同程度的提高数据处理的性能,基于数据平台实现更丰富的功能需求。

别被忽悠了!我来谈谈大数据平台的4个要点,你们写的都不是干货

二、数据平台的建设有哪些方案可以选择

如果一句话回答的话,那就是:太多了(这是一句废话,我承认),但确实有非常多的方案可供选择,我懂的少,肯定是无法一一介绍,所以就分成了下面几类,相信也一定程度上覆盖了大部分企业的需求了。

1.常规数据仓库:它的重点在于数据整合,同时也是对业务逻辑的一个梳理。虽然它也可以打包成ssas那种cube一类的东西来提升数据的读取性能,但是数据仓库的作用,更多的是为了解决公司的业务问题,而不仅仅是性能问题。这一点后面会详细介绍。

2.敏捷型数据集市:

底层的数据产品与分析层绑定,使得应用层可以直接对底层数据产品中的数据进行拖拽式分析。这一类产品的出现,其初衷是为了对业务数据进行简单的、快速的整合,实现敏捷建模,并且大幅提升数据的处理速度。

目前来看,这些产品都达到了以上的目的。但它的优缺点也比较明显,从我的角度看,它是很难成为公司的数据中心的。