DeepSeek 开源周第五天
2 月 28 日是 DeepSeek “开源周”的第五天。上午 9 点,DeepSeek 在推上宣布了今天的主角:3FS 以及 SmallPond。
Fire-Flyer File System:一种并行文件系统,充分利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的带宽。
https://github.com/deepseek-ai/3FS
SmallPond:一个基于 DuckDB 和 3FS 构建的轻量级数据处理框架。
https://github.com/deepseek-ai/smallpond
3FS 亮点:
⚡ 在 180 节点集群中,总读取吞吐量达 6.6 TiB/s
⚡ 在 25 节点集群中,GraySort 基准测试吞吐量达 3.66 TiB/分钟
⚡ 每个客户端节点的 KVCache 查找峰值吞吐量超过 40 GiB/s
🧬 分离式架构,具备强一致性语义
✅ 支持以下应用场景:训练数据预处理、数据集加载、检查点保存与恢复、嵌入向量搜索、V3/R1 推理中的 KVCache 查找
3FS 是什么东东?
Fire-Flyer File System(3FS)是一种高性能分布式文件系统,旨在应对 AI 训练和推理工作负载的挑战。
它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络,提供一个共享存储层,从而简化分布式应用程序的开发。3FS 的主要特点和优势包括:
性能与易用性
- 【分离式架构】结合数千个 SSD 的吞吐量和数百个存储节点的网络带宽,使应用程序能够以无地域限制的方式访问存储资源。
- 【强一致性】通过采用链式复制与分配查询(CRAQ)实现强一致性,使应用程序代码简单易懂,便于推理。
- 【文件接口】开发了基于事务性键值存储(如 FoundationDB)的无状态元数据服务。文件接口广为人知且普遍使用,无需学习新的存储 API。
多样化工作负载
- 【数据准备】将数据分析管道的输出组织成分层目录结构,并高效管理大量中间输出。
- 【数据加载器】通过使计算节点能够随机访问训练样本,消除数据预取或混排数据集的需求。
- 【检查点】支持大规模训练的高吞吐量并行检查点。
- 【推理的 KVCache】提供一种成本效益高的替代方案,取代基于 DRAM 的缓存,提供高吞吐量和显著更大的容量。
网友:选 3FS 还是 Deep File System?
✅ 3FS
- 3FS 是一种针对 AI 工作负载优化的高性能分布式文件系统,利用现代 SSD 和 RDMA 网络实现快速数据访问。
- 它实现了 6.6 TiB/s 的读取吞吐量,显著加速 AI 训练和推理,减少瓶颈。
- 与 Lustre、Ceph、HDFS 和 IBM Spectrum Scale (GPFS) 相比,3FS 专为 AI 设计,使其在深度学习应用中可能更高效。
- 它支持可扩展的 AI 基础设施,能够处理大规模数据集,并确保计算节点之间的一致性,实现无缝模型训练。
- 3FS 是开源的,非常适合 AI 研究实验室、数据中心和高性能计算(HPC)应用,旨在普及高性能 AI 存储。
DeepSeek 开源周系列:
© 版权声明
文章版权归作者所有,未经允许请勿转载。