doc 海量小图片在HDFS下存储和访问优化 ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:64 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2022-06-26 11:42

海量小图片在HDFS下存储和访问优化

良好的性能,并且系统已经采用作为存储索引的数据库。所以如果采用实现消息队列,既实现了我们所需要的功能,也不会增加系的复杂性。所以,在优化后的系统中,将会在基础之上,实现自己的消息队列。图片上传模块的队列图片上传模块主要完成从缓存到这阶段的文件处理功能。在这模块用到的有图片缓存队列文件合成队列文件上传队列等种类型的消息队列。图片缓存队列该队列用于维护仍可添加小文件的集合。用户上传小图片时,从中选择个合适的集合,将小图片信息加入到该集合中。如果添加小图片后,该集合满足了规定的条件即集合中文件总大小达到上限或者超过定的时间期限,如,则将该集合从缓存队列转入文件合成队列。这样设定规定条件,是因为文件以分块,如果集合中文件大小太小,达不到很好的优化效果。设置时间期限为,是为了防止很长时间没有文件上传时,该集合的文件在很长段时间内都无法上传至系统,当缓存系统突然崩溃时,如此可减少损失。图片合并队列该队列中的所有元素都代表这个可以被合并的大文件。队列中的元素都是从图片缓存队列转入的,其中每个元素代表个可以被压缩的小图片集合,相应的消息处理进程从该队列取出元素,进行文件合并操作,并将该元素从合成队列转入文件上传队列。文件上传队列该队列中的所有元素都代表这个可以上传至文件系统的文件。该队列中的元素都是从文件合成队列转入的,其中每个元素代表个可以上传至的文件。相应的消息处理进程从该队列取出元素,将对应的文件上传至,并从该队列中删除这个元素。从逻辑上说,图片合并队列和文件上传队列是可以省略的,即当缓存队列中的个元素满足条件时,出队列合成文件上传文件气呵成,而不是从个队列跳到另个队列。但是,合成文件和上传文件都需要定的时间消耗,者顺序执行会增加总时间的消耗。采用消息队列的理由就是使有些步骤能够实现异步操作并发执行,而使用多个队列就是为了达到这个目标。多个并发执行的消息队列,不但可以很好的分离业务逻辑,而且可以使合成文件和上传文件并发执行,以更加充分的利用系统资源,是磁盘网络传输等都得到充分利用。清理进程模块的队列清理进程模块主要完成扫描被删除的文件合并达到合并条件的文件的功能。清理进程模块用到的有文件下载队列文件删除队列文件合成队列文件上传队列等种类型的消息队列。文件下载队列该队列中维护的是可以被清理的文件的,这些都是清理进程扫描索引时获得的满足规定条件的文件路径,通过该可以从中读取文件。图片合并队列该队列中的所有元素都代表这个可以被合并的大文件。队列中的元素都是从图片缓存队列转入的,其中每个元素代表个可以被压缩的小图片集合,相应的消息处理进程从该队列取出元素,进行文件合并操作,并将该元素从合成队列转入文件上传队列。文件上传队列该队列中的所有元素都代表这个可以上传至文件系统的文件。该队列中的元素都是从文件合成队列转入的,其中每个元素代表个可以上传至的文件。相应的消息处理进程从该队列取出元素,将对应的文件上传至,并从该队列中删除这个元素。文件删除队列该队列维护这系列的元素,这些元素都是从下载队列中转入的。根据每个,需要完成两项功能,删除在中对应的文件和删除该文件对应的索引。采用多个队列的理由上小节已经说清楚了。这里需要强调的点就是,文件删除队列和其他几个队列不能并发执行。原因就是如果个文件还未合并完毕,此时的文件索引还未更新,但其在中的物理文件已经被删除。如果有客户端此时请求该文件,就会地访问的文件。所以,真正执行删除队列中元素的物理删除放在了最后,并不将文件的物理删除和其他功能,如下载合并上传等并发执行。各文件的索引在文件上传后就更新了,索引更新后,原理的在中相关的文件对用户来说已经是不可访问的了,所以在此时执行删除原文件的操作对用户完全没有任何影响。维护队列以上各消息队列中的消息的源头都是客户端发送出来的,每台机器上都可以拥有若干客户端。其中每个消息都代表这相应机器上的个文件或个文件集合。的遵循着数据的计算向数据靠拢的原则,这种原则不但可以提高数据处理速度而且可以减少文件造成的带宽压力。既然要遵循数据的计算向数据靠拢,那么文件的处理就应该在文件所在服务器进行。所以需要将消息队列与其中元素所在的机器对应起来。给各台机器个标识,将该标识加入到各种类型的消息队列的命名之中就可以很好的解决消息队列与机器的对应问题。为此,系统建立了个机器的维护队列,用于维护各客户端所在机器的及其对应的标识。如果个机器设置了多个,那么,取其中的个即可。该维护队列仍然使用作为其载体,使用个即可解决各机器的与标识的对应问题。的为,为机器标识。队列的建立过程。当个机器上的个客户端启动之初,会从客户端系统配置缓存中获取机器标识,如果可以成功获取,则无需再访问该队列如果无法成功获取,则访问该队列中自己的对应的标识,如果队列中有其对应的标识,则返回并写入本地缓存,否则给该建立个映射,其的选择如下遍历队列,找出现在队列中所有的最大值,记为从到之间如果没有断缺,则为如果有断缺,则断缺中最小的那个值就作为。队列的维护。如果有个机器上的已经失效,即该机器或该机器的不再使用,则由工作人员将该映射从队列删除即可。图片操作流程图片操作大致可分为图片请求图片上传图片删除等。但为了提高系统性能,更好的支持小文件存储,在优化的系统中引入了异步处理与并发处理从逻辑上删除文件等功能,引入了缓存消息队列等用作异步处理和并发处理的工具,从而又引入了后台进程以便处理消息和清理已经被逻辑删除的文件。这些功能的引入增加了请求处理的复杂程度,使各个操作的内部流程略显复杂。流程的复杂是对的,但对用户来说,这些复杂的逻辑是透明的,用户不必关心这些复杂的逻辑,只需要关注自己的逻辑就行。但此处有必要对各个流程做个简单的介绍。本小节的内容就是简单介绍各个流程。图片下载流程图片下载流程就是从收到用户下载图片请求到响应获取图片请求的过程。在原有系统中,用户的每个请求都要经过的节点处理,然后从节点获取相应的文件即可。然而,在这个优化后的系统中,当用户请求个小图片时,我们便要从读取其所在的整个大文件并解析之,然后将用户请求的图片返回给用户,效率明显不高。显然,如果不优化读文件流程,那么虽然该系统节省了的命名空间和的存储空间,但大大增加了的文件压力和用户请求文件的时间。而且,并没有有效地减少对的访问次数。总的来说,有点得不偿失的感觉。为了提高响应请求文件的平均速度,本系统添加了客户端缓存,合理的缓存不但可以明显地减轻处理请求和文件的压力,而且可以大大地提高用户请求获取图片效率。引入客户端缓存之后,下载图片的流程如图所示开始读缓存是否存在响应请求结束是否根据索引将未被删除的图片移至缓存中对应的位置根据索引从中读出其所在的大文件文件至缓存根据索引找到其在缓存中的位置从大文件中解析出各小图片图图片请求流程针对图简单说明如下根据获取图片的请求查找索引,从而获取图片在缓存中相应的文件路径,如果所请求的图片存在于缓存中,则进入如果缓存中没有此图片,则进入。根据从索引中获取这张图片对应的在中的大文件的,从中读取大文件。从大文件中解析出各个小图片。海量小图片在下存储和访问优化。所以,从理论上说,在处理海量小文件时存在严重的性能问题。有必要对小文件的存储方式进行改进,以优化对小文件的支持力度。本章小结本章概括介绍了与的基本情况,并详细分析了的体系结构和读写文件流程。在此基础上,分析了在处理海量小图片时的缺陷与不足。小节介绍了的基本情况。是为了适应海量数据和大规模计算等新需求而发展出来的,用户可以在这个平台上很容易的开发分布式程序和存储海量的数据文件。小节和小节介绍了,的个主要的组成部分。是个分布式文件系统,用于存储海量的数据文件,并为分布式计算提供数据支持。在这部分,详细介绍了的体系结构。是由等部分构成。是整个系统的核心,管理着其存储的所有文件的元数据和元数据对应的存储位置,控制客户端对数据文件的各种操作等是为了提高重启的速度而生的,它周期性地将中的内容更新至中,然后清空旧的文件是数据文件存储的主体部分,在的分配空间中,数据文件以数据块的形式存储在其中。小节和小节分别介绍了中的数据复制控制和消息交换协议。数据复制控制的作用是保证数据的可靠性和可用性以及高数据带宽利用率消息交换协议是为了可以让各组成部分更高效地交换彼此所需要的信息,让整个系统更好地协同工作。小节对中的文件读写流程做了详细的分析。文件读写流程的分析可以更好地为优化小文件存储性能提供依据,是十分重要的环。最后,本章在前面介绍的基础上,分析了对海量小文件存储的性能瓶颈,并提出要通过改变小文件的存储方式来优化对小文件的支持。下小文件存储现有解决方案本文要解决的是海量小图片的存储问题,但终归到底,小图片也是小文件,所以,先对海量小文件的现有解决方案进行分析是十分有必要的。本章主要是针对在海量小文件存储上的现有解决方案进行分析和总结,从而为设计海量小图片的存储解决方案提供理论基础。现有的解决方案主要有自身提供的小文件处理方案和,基于的小文件解决方案,多方案,文件合并方案等。提供的小文件解决方案为了提高的效率,提供了几个可供选择的小文件处理方案,它们在定程度上缓解了下海量小文件存储的缺陷。本小节就提供的小文件解决方案做详细介绍,并分析其优缺点。介绍文件存储格式如图所示图文件存储格式可以被认为是种新的文件格式。文件是通过在上构建个层次化的文件系统来工作。是个文件存档工具,它能高效地将多个小文

下一篇
海量小图片在HDFS下存储和访问优化第1页
1 页 / 共 64
海量小图片在HDFS下存储和访问优化第2页
2 页 / 共 64
海量小图片在HDFS下存储和访问优化第3页
3 页 / 共 64
海量小图片在HDFS下存储和访问优化第4页
4 页 / 共 64
海量小图片在HDFS下存储和访问优化第5页
5 页 / 共 64
海量小图片在HDFS下存储和访问优化第6页
6 页 / 共 64
海量小图片在HDFS下存储和访问优化第7页
7 页 / 共 64
海量小图片在HDFS下存储和访问优化第8页
8 页 / 共 64
海量小图片在HDFS下存储和访问优化第9页
9 页 / 共 64
海量小图片在HDFS下存储和访问优化第10页
10 页 / 共 64
海量小图片在HDFS下存储和访问优化第11页
11 页 / 共 64
海量小图片在HDFS下存储和访问优化第12页
12 页 / 共 64
海量小图片在HDFS下存储和访问优化第13页
13 页 / 共 64
海量小图片在HDFS下存储和访问优化第14页
14 页 / 共 64
海量小图片在HDFS下存储和访问优化第15页
15 页 / 共 64
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手,定制查找
    精品 全部 DOC PPT RAR
换一批