- FineDataLink数据集成客户案例

公司要做数据分析，首先要考虑数据的准备，也就是数据平台的建设，最近接触了几个朋友都处于这一环节，而且其中一个在方案选型过程中，也是充满了纠结，而我也并没有在开始阶段给出合理全面的建议。所以根据自己的认知整理了这篇文章，一是对自己的整理，二是希望通过分享，给大家一些参考的价值。数据平台建设方案,大数据平台优势,为什么要搭建数据平台

一、为何而搭建数据平台

业务跑的好好的，各系统稳定运行，为何还要搭建企业的数据平台？这样的问题，心里想想就可以了，不要大声问出来。我来直接回答一下，公司一般在什么情况下需要搭建数据平台，对各种数据进行重新架构。从业务上的视角来看： 1.业务系统过多，彼此的数据没有打通。这种情况下，涉及到数据分析就麻烦了，可能需要分析人员从多个系统中提取数据，再进行数据整合，之后才能分析。一次两次可以忍，天天干这个能忍吗？人为整合出错率高怎么控制？分析不及时效率低要不要处理？从系统的视角来看： 2.业务系统压力大，而不巧，数据分析又是一项比较费资源的任务。那么自然会想到的，通过将数据抽取出来，独立服务器来处理数据查询、分析任务，来释放业务系统的压力。 3.性能问题，公司可以越做越大，同样的数据也会越来越大。可能是历史数据的积累，也可能是新数据内容的加入，当原始数据平台不能承受更大数据量的处理时，或者是效率已经十分低下时，重新构建一个大数据处理平台就是必须的了。上面我列出了三种情况，但他们并非独立的，往往是其中两种甚至三种情况同时出现。一个数据平台的出现，不仅可以承担数据分析的压力，同样可以对业务数据进行整合，也会不同程度的提高数据处理的性能，基于数据平台实现更丰富的功能需求。数据平台建设方案,大数据平台优势,为什么要搭建数据平台

二、数据平台的建设有哪些方案可以选择

如果一句话回答的话，那就是：太多了（这是一句废话，我承认），但确实有非常多的方案可供选择，我懂的少，肯定是无法一一介绍，所以就分成了下面几类，相信也一定程度上覆盖了大部分企业的需求了。

1.常规数据仓库

它的重点在于数据整合，同时也是对业务逻辑的一个梳理。虽然它也可以打包成saas那种cube一类的东西来提升数据的读取性能，但是数据仓库的作用，更多的是为了解决公司的业务问题，而不仅仅是性能问题。这一点后面会详细介绍。

2.敏捷型数据集市

底层的数据产品与分析层绑定，使得应用层可以直接对底层数据产品中的数据进行拖拽式分析。这一类产品的出现，其初衷是为了对业务数据进行简单的、快速的整合，实现敏捷建模，并且大幅提升数据的处理速度。目前来看，这些产品都达到了以上的目的。但它的优缺点也比较明显,从我的角度看，它是很难成为公司的数据中心的。

3.MPP(大规模并行处理)架构的数据产品，以最近开源的greenplum为例。

传统的主机计算模式在海量数据面前，显得弱鸡。造价非常昂贵，同时技术上也无法满足高性能的计算，smp架构难于扩展，在独立主机的cpu计算和io吞吐上，都没办法满足海量数据计算的需求。分布式存储和分布式计算正是解决这一问题的关键，不管是后面的MapReduce计算框架还是MPP计算框架，都是在这一背景下产生的。 greenplum的数据库引擎是基于postgresql的，并且通过Interconnnect神器实现了对同一个集群中多个Postgresql实例的高效协同和并行计算。 4.hadoop分布式系统架构 关于hadoop，已经火的要爆炸了，greenplum的开源跟它也是脱不了关系的。有着高可靠性、高扩展性、高效性、高容错性的口碑。在互联网领域有非常广泛的运用，雅虎、facebook、百度、淘宝等等等等。 hadoop生态体系非常庞大，各公司基于hadoop所实现的也不仅限于数据分析，也包括机器学习、数据挖掘、实时系统等。数据平台建设方案,大数据平台优势,为什么要搭建数据平台

当企业数据规模达到一定的量级，我想hadoop是各大企业的首选方案，到达这样一个层次的时候，我想企业所要解决的也不仅是性能问题，还会包括时效问题、更复杂的分析挖掘功能的实现等。非常典型的实时计算体系也与hadoop这一生态体系有着紧密的联系。近些年来hadoop的易用性也有了很大的提升，sql-on-hadoop技术大量涌现，包括hive、impala、spark-sql等。尽管其处理方式不同，但普遍相比于原始基于文件的Mapreduce，不管是性能还是易用性，都是有所提高的。也因此对mpp产品的市场产生了压力。对于企业构建数据平台来说，hadoop的优势与劣势非常明显：它的大数据的处理能力、高可靠性、高容错性、开源性以及低成本（为什么说低成本，要处理同样规模的数据，换一个其他方案试试呢）。缺点也就是他的体系的复杂，技术门槛较高（能搞定hadoop的公司规模一般都不小了）。关于hadoop的优缺点对于公司的数据平台选型来说，影响已经不大了。需要上hadoop的时候，也没什么其它的方案好选择（要么太贵，要么不行），没到达这个数据量的时候，也没人愿意碰这东西。总之，不要为了大数据而大数据。

三、方案很多，企业要怎样选择呢

环境太复杂，但是我想至少要从下面这几个方面去考虑吧。 1.目的：什么样的目的？就是文中开始部分的三种情况，或者是其中几个的组合。做事方法都一样，哪怕是中午出去吃饭，也是要在心里有个目的，这顿饭是为了吃饱，还是吃爽，或者为了拍别人的马屁，然后才好选择去吃什么。数据平台建设方案,大数据平台优势,为什么要搭建数据平台

当然，要明确数据平台的建设目的，哪里是那么容易的，初衷与讨论后确认的目标或许是不一致的。公司要搭建一个数据平台的初衷可能很简单，只是为了减轻业务系统的压力，将数据拉出来后再分析，如果目的真的就这么单纯，还真的没有必要大动干戈了。如果是独立系统的话，直接将业务系统的数据库复制出来一份就好了；如果是多系统，快速建模，直接用finebi或者finereport接入进去就能实现数据的可视化与olap分析。数据平台建设方案,大数据平台优势,为什么要搭建数据平台

但是，既然已经决定要将数据平台独立出来了，就不再多考虑一点吗？多个系统的数据，不趁机梳理整合一下？当前只有分析业务数据的需求，以后会不会考虑到历史数据呢？这种敏捷的方案能够支撑明年、后年的需求吗？任何公司要搭建数据平台，都不是一件小事，多花一两个月实施你可能觉得累，多花一周两周的时间，认真的思考一下总可以的吧。雷军不是说过这样一句话：不能以战术上的勤奋，掩盖战略上的懒惰。 2.数据量：根据公司的数据规模选择合适的方案，这里说多了都是废话。 3.成本：包括时间成本和金钱，不必多说。但是这里有一个问题想提一下，发现很多公司，要么不上数据平台，一旦有了这样的计划，就恨不得马上把平台搭出来用起来，时间成本不肯花，这样的情况很容易考虑欠缺，也容易被数据实施方忽悠。

关于方案选择的建议，举以下3+1个场景

场景a：要实现对业务数据的快速提取和分析，多个业务系统，没有达到海量数据，不考虑历史数据，不需要依照业务逻辑对数据进行系统的梳理，这种情况下，可以考虑敏捷型的bi工具自带的数据底层。简单来讲，这种场景仅仅是在技术层面上，完成对数据的整合与提速，并没有从业务层面上对数据进行建模。他可以满足一定的分析需求，但是不能成为公司的数据中心。数据平台建设方案,大数据平台优势,为什么要搭建数据平台

场景b：要搭建公司级的数据中心，打通各系统之间的数据。非常明显的，需要搭建一个数据仓库。这时就需要进一步考虑公司数据的量级了，如果是小数据量，TB级以下，那么在传统数据库中建这样一个数据仓库就可以了，如果数据量达到几十上百TB，或者可见的在未来几年内数据会达到这样一个规模，可以将仓库搭在greenplum中。这种场景应该是适用于大部分公司，对于大部分企业来说，数据量都不会PB级别，更多的是在TB级以下。 场景c：公司数据爆发式增长，原有的数据平台无法承担海量数据的处理，那么就建议考虑hadoop这种大数据平台了。它一定是公司的数据中心，这样一个角色，仓库是少不了的，可以将原来的仓库直接搬到hive中去。这种数据量比较大的情况要怎样呈现，因为hive的性能较差，它的即席查询可以接impala，也可以接greenplum，因为impala的并发量不是那么高，而greenplum正好有它的外部表（也就是greenplum创建一张表，表的特性叫做外部表，读取的内容是hadoop的hive里的），正好和hadoop完美的融合（当然也可以不用外部表）。 场景d：这个是后面补充的，当公司原本有一个数据仓库，但历史数据了堆积过多，分析性能下降，要怎么办？两个方案可以考虑，比较长远的，可以将仓库以及数据迁移到greenplum中，形成一个新的数据平台，一个独立的数据平台，可以产生更多的可能性；比较快速的，是可以将类似finecube那种敏捷型数据产品接入原来的仓库，这样来提升数据的处理性能，满足分析的要求。

四、关于方案选型时可能会出现的误区

忽略业务的复杂性，要用工具来解决或者是绕开业务的逻辑。这个是我最近遇到过的，客户要做报表平台，有三个业务系统的数据需要整合。但是急于变现，不想搭建传统的数据仓库，所以从敏捷型的bi工具中选型。工具厂商对自己数据产品的描述，一般着重于它的快速实施、性能的优化、以及自带的基本etl功能。这样容易给客户造成误区，就是通过这一产品可快速搭建出一个公司级别的数据中心，满足于顶层对数据的需求。数据平台建设方案,大数据平台优势,为什么要搭建数据平台

然而在后期突然意识到，工具所解决的，仅仅是在技术层面上简化了工具的使用的复杂性，把etl和数据集市封装在一起，并且提高了数据的性能，但是并没有从业务层面上实现数据的建模，很多细节问题无法处理。虽然敏捷开发非常诱人，如果业务系统简单，或者只需要分析当前状态的业务数据，不需要公司级的数据中心，那么确实是一个非常好的方案。然而这些问题还没有考虑清楚，对敏捷产品有了过高的期望，后面是会遇到些麻烦的。除此之外，可能还会有为了大数据而大数据的，但是这些我在实际的工作中还没有遇到。最后总结一下，企业选择数据平台的方案，有着不同的原因，要合理的选型，既要充分的考虑搭建数据平台的目的，也要对各种方案有着充分的认识。仅从个人的角度，对于数据层面来说，还是倾向于一些灵活性很强的方案的，因为数据中心对于公司来说太重要了，我更希望它是透明的，是可以被自己完全掌控的，这样才有能力实现对数据中心更加充分的利用。因为，我不知道未来需要它去承担一个什么样的角色。 ps：数据平台的建设，是一个不小的项目，实施周期过长，会不会途中夭折？这锅谁都不想背，这样的项目，怎样才能迭代起来，逐步实施逐步投放？

比如，目前主流的软件——FineDataLink，它小到数据库对接、API对接、行列转换、参数设置，大到任务调度、运维监控、实时数据同步、数据服务API分享，应有尽有，功能很强大。最重要的是，因为这个工具，整个公司的数据架构都可以变得规范。而且它是java编写的，类流程图式的ETL开发模式，上手都很简单：数据对接、任务复用简直都是小case，大大降低了数据开发的门槛。在企业中被关注最多的任务运维，FineDataLink大运维平台，支持文件夹式开发模式，报错任务可一键直达修改，报错优化清晰易懂；通过权限控制，保障系统安全。