公司地址:
新闻资讯国际企业科技园4381号
在QCon群众软件开辟大会(北京站)上,焱融科技CTO张文涛共享了高性能全闪并行文献系统YRCloudFile的揣度打算与试验,潜入琢磨了AI侦查场景中的存储挑战与处理决策。张文涛指出开云体育,深度学习边界中,数据与算力是模子侦查的中枢身分,但数据范围和模子复杂度的快速增长导致存储性能成为制约侦查终结的重要瓶颈。
张文涛通过meta的存储增长数据和某大客户的骨子案例,揭示了AI期间存储需求的爆发式增长。他提到,2022年ChatGPT发布后,国内大模子厂商的数据量年均增速从20T跃升至60T,存储容量与性能需求同步激增。AI全历程中,数据汇集、处理、侦查、推理和存档各方法均靠近不同挑战,其中侦查方法对存储性能的条件最为严苛。
针对AI侦查场景,YRCloudFile通过多项时期革命处理了高并发、海量小文献、带宽峰值等中枢问题。系统选择静态数据路由算法,在文献创建时即细目存储位置,幸免走访时的元数据查询支拨,同期应用多磁盘并行进步带宽应用率。Multi-Channel时期通过网卡团聚打破单网卡带宽终结,NUMA亲和性优化幸免跨节点内存走访,RDMA单边编程时势减少内存拷贝,共同将单节点朦拢量进步至480GB/s。
在海量小文献处理方面,YRCloudFile选择基于Dentry Hash的元数据区别战略,通过根目次固定、子目次哈希聘任和腹地性优化,确保元数据操作均匀区别且具备高效预取才能。测试数据流露,YRCloudFile在1亿至100亿文献范围下,元数据OPS性能健硕,远超开源CephFS的衰减发达。同期,系统通过弱化POSIX语义、异步close操作等时期,将小文献走访性能进步10倍以上。
为知足大范围集群需求,YRCloudFile揣度打算了蕴蓄式心跳上报机制和UDP推拉相接的事件同步决策,守旧200余个全闪节点和10万个客户端的扩张才能。智能数据分层功能通落伍分和大小战略,自动将冷数据下千里至对象存储,同期保握业务透明无感。在AI侦查中,数据预热功能确保GPU快速走访热门数据,幸免冷驱动延长。
在运维层面,YRCloudFile提供多佃户管制、走访权限规则、日记审计和回收站等安全特质,守旧弹性数据汇集买通多汇集平面。针对单流业务,系统通过缓存预取优化性能;针对小模子侦查,建设Cache HardLimit幸免延长抖动;针对IB汇集拥塞,施行客户端限速保险全体朦拢量。
张文涛还先容了YRCloudFile在推理场景的优化决策。系统为KVCache提供PB级缓存空间,单个节点守旧40GBps带宽和低延长走访,使长险峻文场景的TTFT延长裁汰13倍,高并发场景性能显耀进步。DataInsight处理决策守旧百亿级数据秒级检索,通过多维度组合查询和增量数据感知,匡助企业快速构建常识库平台。
张文涛毕业于华中科技大学算计机专科硕士开云体育,领有15年区别式存储边界告诫,主导了YRCloudFile从研发到落地的全过程。该系统已无为应用于AI及高算力场景,具备丰富的架构揣度打算和性能优化告诫。