1、“.....保证计算服务的持续进行。第段处理,计算节点在出现故障时会尝试自动重启。如果重启失败,则继续维持第段处理,如果重启成功,则会向重新上报健康状态,恢复正常工作。大数据流式处理系统架构为了满足业务发展对高性能实时指标计算能力的需要,同时解决目前行业内同类工具普遍存在的问题,采用新型的时间切片原理,在利用和等开源组件的技,基于动态窗口的大数据流式处理技术研究论文原稿为,为左右,且此时的各节点硬件资源使用均未达到极限。通过横向动态扩展和网络优化,该流式处理系统的计算能力还能线性提高。参考文献孙大为,张广艳,郑纬民大数据流式计算关键技术及系统实例软件学报,王奇基于发布订阅的分布式复杂事件处理系统的研究与实现北京北京邮电大学,苏锦基于的高性能服务器的研究与实现南京南京邮电大学,崔晓旻基于的高可服务消息中间件的研究与实现成都电子科技大学......”。
2、“.....切片选取策略参见图。以分钟切片为例,从起始切片开始,每隔分钟开启个新的切片,为当前时刻,为指标计算所需的持续时间,从到就是指标计算的时间长度。如果正好处于时间切片首尾,就将个时间切片纳入计算,如果在个时间切片的中间位置,则采用时间覆盖原则,将该时间切片全部纳入计算。在图中,虚线段是指标计算的理论时间长度,实线段是指标计算的实际时间长度。采用这种策略,虽然在精度上有细微损失,但大幅提高了计算效率。当需要动态调数据。个时间切片是数据信息保存的最小单位,也是保存数据的主要形式。在本系统中,时间切片中不存储源数据,而是存储该切片时间段内所有流水数据按照指标配置进行聚合计算后得到的结果数据,这种设计大幅压缩了数据存储量,可以存储较长时间的数据。本系统通过技术实现流水数据的时间切片处理。当流水数据进入到个具体的数据计算任务后,首先提取流水数据的发生时间......”。
3、“.....根据取出对应的计算层主要功能包括计算任务执行异常处理数据序列化以及时间切片等。计算节点识别服务层分发的数据,并使用对应的算子和原有缓存节点中的计算结果合并计算,合并计算的结果再次保存到缓存节点中,并向服务层返回任务执行成功状态。若计算任务出现异常,则向服务层返回计算任务执行失败状态,结果数据不保存。缓存层主要功能为存储计算结果,由集群构成。集群内置的自动分区复制逐出事务等特性为系统缓存层的高可用和高性能提供了保证。动态窗口间结果后,根据预置的处理公式进行次或多次加工,最终完成服务。本地数据本地计算的架构设计通过将计算节点和存储节点∶的部署在同物理节点的部署方式,实现数据的读取计算和结果回写均能在同物理节点上执行,形成架构,大幅减少网络开销。均匀存储均匀计算系统采用的算法以及与的协同实现了均匀存储均匀计算。具体来讲......”。
4、“.....根,时间为,为左右,且此时的各节点硬件资源使用均未达到极限。通过横向动态扩展和网络优化,该流式处理系统的计算能力还能线性提高。参考文献孙大为,张广艳,郑纬民大数据流式计算关键技术及系统实例软件学报,王奇基于发布订阅的分布式复杂事件处理系统的研究与实现北京北京邮电大学,苏锦基于的高性能服务器的研究与实现南京南京邮电大学,崔晓旻基于的高可服务消息中间件的研究与实现成都电子科技大学,包含的策略。切片选取策略参见图。以分钟切片为例,从起始切片开始,每隔分钟开启个新的切片,为当前时刻,为指标计算所需的持续时间,从到就是指标计算的时间长度。如果正好处于时间切片首尾,就将个时间切片纳入计算,如果在个时间切片的中间位置,则采用时间覆盖原则,将该时间切片全部纳入计算。在图中,虚线段是指标计算的理论时间长度,实线段是指标计算的实际时间长度。采用这种策略......”。
5、“.....但大幅提高了计算效率。当需要动基于动态窗口的大数据流式处理技术研究论文原稿据机器的性能可以把不同的槽位分配给不同的节点。基于动态窗口的大数据流式处理技术研究论文原稿。服务层通过收集计算节点的执行状态实现对计算任务监控。当所有的计算任务都执行成功后,服务层认为当前流入数据已被系统正常处理。如果有计算任务执行失败,数据分发节点会分析失败原因并决定是否转派其他计算节点再次执行。服务层在响应指标查询服务请求,获取缓存节點上的中间结果后,根据预置的处理公式进行次或多次加工,最终完成服务。计算任务执行失败状态,结果数据不保存。缓存层主要功能为存储计算结果,由集群构成。集群内置的自动分区复制逐出事务等特性为系统缓存层的高可用和高性能提供了保证。服务层通过收集计算节点的执行状态实现对计算任务监控。当所有的计算任务都执行成功后......”。
6、“.....数据分发节点会分析失败原因并决定是否转派其他计算节点再次执行。服务层在响应指标查询服务请求,获取缓存节點上的中时序数据。个时间切片是数据信息保存的最小单位,也是保存数据的主要形式。在本系统中,时间切片中不存储源数据,而是存储该切片时间段内所有流水数据按照指标配置进行聚合计算后得到的结果数据,这种设计大幅压缩了数据存储量,可以存储较长时间的数据。本系统通过技术实现流水数据的时间切片处理。当流水数据进入到个具体的数据计算任务后,首先提取流水数据的发生时间,然后根据流水数据的关键值和计算任务拼装成的,根据取出对。基于动态窗口的大数据流式处理技术研究论文原稿。计算层主要功能包括计算任务执行异常处理数据序列化以及时间切片等。计算节点识别服务层分发的数据,并使用对应的算子和原有缓存节点中的计算结果合并计算,合并计算的结果再次保存到缓存节点中......”。
7、“.....若计算任务出现异常,则向服务层返回,态调整指标查询的时间窗口时,无需对源数据重新计算,只需要通过必要的次计算即可实时获取新的结果,实现动态窗口设置的实时生效。结论本文提出的基于窗口计算的大数据流式处理系统已经实际投入应用。整个系统采用台服务器搭建集群兩台服务器搭建服务层台服务器搭建数据计算集群和存储集群。在压力测试中,在并发数为且单条数据大小不超过的情况下,集群的指标查询性能达到万,成功率。以实际生产数据测试,在秒内发起亿次指标查询请求,系统的平均响应应的,并读取中最新切片的时间。如果流水数据的发生时间比该切片时间早,则不需要创建新的切片,找到当前的流水数据对应的时间切片,并根据任务里配置的聚合函数计算结果并更新该时间切片的,更新回中。如果流水数据的发生时间晚于目前的处理时间,则需要创建新的切片......”。
8、“.....时间切片在中的存储参见图。在指标查询任务中,时间切片的选取采用落入即基于动态窗口的大数据流式处理技术研究论文原稿态窗口所谓动态时间窗口,即在不需要重新发布计算任务的前提下,可以实时调整指标查询窗口的大小,且能立即获得对应的结果。目前大多数基于窗口的流式计算解决方案都不能很好地支持动态窗口。其根本原因在于这些解决方案的计算任务都是基于源数据的,由于源数据的数据量大,导致无法在长时间保存源数据的同时又支持快速计算指标结果。在本处理系统中,动态窗口的实现基于系统独有的时间切片的设计原理。时间切片设计原理时间切片是将时序数据按照定的时间间隔聚合后的新的术特性的基础上,设计了套高性能的大数据流式处理系统。该系统主要功能包括接受外部系统流水数据实时指标计算和向外部系统提供指标查询等功能。系统分为层架构,分别为通讯层服务层计算层和计算结果缓存层,每层均为多节点集群......”。
9、“.....计算层与缓存层的节点按照∶配置,部署在同物理节点上。系统架构参见图。通信层负责与外部系统的交互。通讯层采用作为数据流入起点。在计算节点出现故障时,通过两段处理的方式保证计算任务的正常进行基于动态窗口的大数据流式处理技术研究论文原稿。在计算节点出现故障时,通过两段处理的方式保证计算任务的正常进行。第段处理,服务层在分发计算内容前,先判断计算节点的健康状态,如果该计算节点状态为非健康,则随机选择个健康的计算节点进行分发。由于新选择的计算节点对应的缓存节点中未存储对应的数据,该计算节点,整指标查询的时间窗口时,无需对源数据重新计算,只需要通过必要的次计算即可实时获取新的结果,实现动态窗口设置的实时生效。结论本文提出的基于窗口计算的大数据流式处理系统已经实际投入应用。整个系统采用台服务器搭建集群兩台服务器搭建服务层台服务器搭建数据计算集群和存储集群。在压力测试中......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。