ARTICLE
28 March 2025

基于HDFS海量小文件读取的研究与设计

建烽 彭1
Show Less
1 广东技术师范大学, 中国
TACS 2025 , 2(6), 102–104; https://doi.org/10.61369/TACS.2025060043
© 2025 by the Author. Licensee Art and Design, USA. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution -Noncommercial 4.0 International License (CC BY-NC 4.0) ( https://creativecommons.org/licenses/by-nc/4.0/ )
Abstract

基于HDFS存储海量小文件读取效率不高的问题,对HDFS存储的海量小文件读取进行优化。通过引入新型并行处理框架 Spark,对系统相关的小文件进行合并,并为合并后的文件建立索引,进而提升海量小文件读取效率。

Keywords
HDFS
海量小文件
Spark
合并
索引
References

 [1] 刘超.基于云环境的海事局船检平台的设计与实现[D].桂林理工大学,2020.DOI:10.27050/d.cnki.gglgc.2020.000547.
 [2] 李文武,张建锋,王景林.基于EHDFS的海量小文件存储与检索方法[J].计算机工程与设计, 2022(002):043.
 [3] 田峰.基于HDFS的海量小文件存储系统的研究与实现[D].西安电子科技大学,2021.
 [4] 张祥俊,伍卫国.基于FastDFS的数字媒体系统设计与实现技术研究[J].计算机技术与发展, 2019, 29(5):6.
 [5] 高朝艳,鹿虹,黄娟,等.基于HDFS的小文件存储技术研究[J].电信技术研究, 2020(3):10-15.

Share
Back to top