企典大数据解决方案基于企典开发框架、提供一套全面集成的元计算服务及高内聚低耦合的资源整合,支持大数据的分布式架构的、纵向和横向的无限切分的高并发数据集合的解决方案。
企典大数据从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解决大数据的核心技术;洞悉大数据的发展趋势;从大数据安全与隐私这个特别而重要的视角审视人和数据之间的长久博弈。
技术是大数据价值体现的手段和前进的基石。企典大数据解决方案分别从云计算、分布式处理技术、存储技术中抽象、提炼、归纳。形成企典大数据从采集、处理、存储到形成结果、查询统计分析的整个过程。
大数据的处理的核心是可无限扩展服务器和与之相对应的分布式算法,数据库分布式,其核心内容无非就是数据切分(Sharding),以及切分后对数据的定位、整合工作,解决单一数据库或数据表因数据量过大而导致的性能瓶颈问题。集数据存储、管理以及分布式协调与计算为一体的数据库系统。数据切分就是把数据分散存放到多个数据库或多个表中,使得单台主机中的数据量变小,使得通过扩充主机数量即可提升数据库操作性能的目的。
数据切分可分为纵向和横向两种切分方法。纵向切分就是根据业务耦合性,将关联度低的不同表独立建成不同的数据库。如下图所示:
纵向切分相对简单,做法与我们将一个大的系统拆分成几个小系统的做法相似,就是根据业务分类进行独立划分应用或数据库。然而当一个应用已经难以再进一步拆分时,或者拆分后数据行数巨大时,我们就还需要进行横向切分(即:将单个表的记录数变小)。横向切分是根据表内数据的逻辑关系,将同一个表按不同的条件拆分到多个数据库或多个表中。
如上图所示,横向切分后同一张表同时出现在多个数据库中,每个库的数据内容不同,如何设定数据记录的切分规则是最重要考量。一旦确定切分规则,应用对该表的操作原则基本就已确定。假设我们将Customer表根据cus_no字段来切分到4个库,如果我们所有查询条件都带有cus_no字段则可明确定位到相应库去查询,但如果我们频繁用到的查询条件中不带cus_no时,将会导致无法定位数据库,从而需要同时向4个库发起查询,最后再合并数据、取最小集返回给应用,导致分库优势反而可能成为你的拖累。下图我们示意一个分表过程:
实践是大数据的最终价值体现,大数据的价值体现在以下几个方面:
1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销
2) 做小而美模式的中小微企业可以利用大数据做服务转型
3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值
在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。