1. 研究目的与意义(文献综述包含参考文献)
一、海量小文件存储问题出现的背景在互联网(尤其是移动互联网)、物联网、云计算、大数据等高速发展的大背景下,数据呈现爆炸式地增长。根据idc的预测,到2020年产生的数据量将达到40zb,而之前2011年6月的预测是35zb。然而,社会化网络、移动通信、网络视频音频、电子商务、传感器网络、科学实验等各种应用产生的数据,不仅存储容量巨大,而且还具有数据类型繁多、数据大小变化大、流动快等显著特点,往往能够产生千万级、亿级甚至十亿、百亿级的海量小文件,而且更多地是海量大小文件混合存储。
目前的文件系统,包括本地文件系统、分布式文件系统和对象存储系统,都是主要针对大文件设计的,比如xfs/ext4、lustre、glusterfs、gpfs、islion、gfs、hdfs,在元数据管理、数据布局、条带设计、缓存管理等实现策略上都侧重大文件,而海量小文件应用在性能和存储效率方面要大幅降低,甚至无法工作。
二、小文件存储问题的原因
2. 研究的基本内容、问题解决措施及方案
一 解决的问题本课题将采用小文件驱动的模式对小文件进行处理,在真实文件系统设备之上架构一层虚拟文件系统设备,由虚拟文件系统设备甄别大小文件并单独处理小文件,解决方式采用流行的index block模式,主要实现如下功能:(1)接受并处理发送给真实文件系统设备的请求,处理能处理的请求,下发无法处理的请求。(2)对index和block的结构进行设计以能支持所有的通用请求。(3)对文件遍历采用索引与局部性保持的方法以优化对大量随机文件同时进行访问的效率。二 研究手段通过学习windows文件系统资料来设计虚拟文件系统的数据结构,通过学习对fastfat中对文件请求的处理来完成课题自身程序对于请求的处理,通过对比不同的文件组织结构寻找最高效的元数据管理方法。
