DataSense分布式数据挖掘平台
2019-10-08 15:26
来源:未知
点击数:            

  金光佛四肖,随着云计算和大数据的兴起和发展,云计算已经成为处理大数据很重要的一个组成部分,伴随着数据量的几何增长,传统的数据挖掘平台系统架构模式已经远远不能适应现代数据挖掘的建设要求。DataSense就是建立在数据立方基础上针对海量的数据的集中计算与挖掘,建立一套具有高可靠、可在线弹性伸缩,提供数据内在关系和价值的数据挖掘计算平台。为业务决策提供便捷、快速和高效的平台支撑。

  DataSense是南京云创存储有限公司自主研发的分布式数据挖掘平台。具有超高的处理性能、而且具有超高的可靠性,可不间断接受任务。

  系统实现了大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供用户选用,共计包含了27个数据挖掘算法。

  DataSense数据挖掘系统分为前台管理平台以及后台数据挖掘平台两部分组成。其总体架构如下图:

  其中采用了数据立方作为对系统海量数据的底层存储平台,提供了高效的ETL工具,能够对海量数据进行高效快速的清洗。前端WEB部分方便用户管理和使用系统,对于数据挖掘的结果提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线类可视化手段,利于用户对数据和模型的观察和理解。

  DataSense采用了JobKeeper作为整个系统的可靠性调度平台。调度平台提供了一套基于Web的管理化界面,可以实时的观察各个处理节点的任务运行状态,以及任务列表的分配情况,机器的负载情况等。用户在管理系统界面上可以完成所有的工作,如新任务的添加,任务的手动调度以及集群日志的查看与分析等。

  分布式机器任务处理节点和管理节点之间维护一个心跳时间,实时向管理节点汇报任务处理信息,同时,任务处理节点在每个心跳时间内向管理节点获取该处理的任务列表,并和 本机正在处理的任务列表进行比对,完成相关的任务调度工作。若一个处理节点在多个心跳时间范围内仍然没有主动的和管理节点相互联系,那么管理节点将会根据 各机器的负载情况,将失去心跳连接的处理节点上的任务进行任务的重新分配和执行。

  大数据挖掘平台是一套软件与硬件相结合的系统,其中专有技术和软件是高附加值部分,可以广泛应用于需要海量数据挖掘的应用场合(如广电、电信、互联网、银行等领域)。该系统相比传统数据挖掘系统有如下技术优势:

  大数据挖掘系统采用云架构,底层数据被分块存储在不同的存储节点上,数据采用先进的1:1容错机制进行容错,可在任意损坏一个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。

  数据挖掘采用分布式并行计算技术,将海量数据的计算处理转化为各个存储节点上并行读写和计算,这样减少了网络的带宽使用,提高了数据的处理速度。同时随着处理节点数目的增多,整个系统的计算性能将呈线性增长。

  数据挖掘平台所依赖的数据存储层数据立方容量仅受限于卷管理服务器内存,可支撑的容量接近无限,经推算,理论容量为1024×1024×1024 PB (1G个PB容量)。这样为超大规模的数据挖掘提供了数据支撑。

  大数据挖掘系统扩容非常方便,支持不停止服务的情况下,动态加入新的处理节点,无需任何操作,即实现扩容;同时,无需人为干预,也可以摘下任意节点,系统自动缩小规模而不影响挖掘业务,运行在此节点上的计算将会重新运行到其他节点上。

  提供基于WEB的管理控制平台,所有的管理工作均由大数据挖掘管理模块自动完成,使用人员无需任何专业知识便可以轻松管理整个系统。通过管理平台,可以对数据立方中的数据源进行挖掘业务,同时提供挖掘结果的可视化查询界面,可以方面的查看挖掘结果,为业务决策做支持。此外,用户还可以通过监控界面可以清楚地了解到每一个处理节点的负载、存储和运行情况。

  大数据挖掘平台算法库采用了分布式并行算法能够在较短的时间内完整各种算法,同时随着机器的增加系统性能线性增长。

  DataSense分布式数据挖掘平台提供对集群机器的负载监控,磁盘监控等基本管理功能。用户可以快速方便的监控整个集群的运行状态。

  负责对数据的导入,支持数据库,文件系统两种数据抽取方式。将数据抽取保存到数据立方。

  由于算法的输入规模的不同,部分数据挖掘业务可能运行时间过长,系统提供了挖掘任务的查看、管理功能。

  大数据挖掘平台提供了多用户使用,系统管理员可以通过用户信息管理功能实现对系统多用户的管理。

  系统提供了对于已有数据的可视化查询,用户可以自定义查询逻辑,系统会在后台自动提交查询任务。目前查询支持了标准SQL 60%的查询功能

  分类算法目前提供了对于数据集的学习、分类的功能。同时用户还可以保存数据训练模型以便决策者或者第三方系统能够在线获取模型,并基于模型进行企业经营行为的决策或计算。分类结束后系统会通过可视化的方式展示系统训练分类后的结果,如下图所示:

  聚类分是对未知事物的分类,系统提供了对结构化数据的聚类,用户可以选择不同纬度的聚类。

  荐:发原创得奖金,“原创奖励计划”来了!秋高气爽,有奖征文邀你直抒心意!

Copyright © 2012-2013 .All rights reserved.http://www.www83118a.com 版权所有

王中王开奖结果| 最快现场开奖结果| 稳赢天下心水专区论坛| 一肖中特免费中后付款| 正版香港数码挂牌记录| 香港管家婆玄机图码报资料| 5123开奖记录第一站| 六合王者| 金钥匙图片2019平特报| 任我?高手论坛|