自2006年推出以来,Ceph广泛用于对性能要求并不严苛的用例。但此项技术的诸多功能吸引着业界的目光,人们希望将Ceph的应用扩展到高性能计算(HPC)等领域。部署在HPC环境中的Ceph通常作为排在另一个并行文件系统之后的主动存档中心(第2层存储),而该并行文件系统则为主存储层。
Ceph技术已实现许多重大改进,加之SUSE及其他提供商对开源项目的贡献,新的功能不断推出,极大地提高了效率,并使基于Ceph的软件定义存储解决方案能够为越来越多的工作负载提供完整的端到端存储平台。
一直以来,HPC数据存储专注于实现所需的性能。随着Ceph软件和硬件以及网络技术的进步,如今将Ceph用于第1层HPC存储(主存储层)已具备可行性。
IO500的“10节点基准测试”为SUSE展示生产就绪型软件定义存储解决方案提供了机会。与其他一些排名较高的系统相比,我们进行基准测试的基于SUSE Enterprise Storage Ceph的解决方案是生产就绪型的,并且具备所有安全和数据保护机制。
这是Arm、Ampere、Broadcom、NVIDIA、Micron、SUSE等团队合作的结果,共同致力于部署构建一个经济高效、高性能的系统。
基准测试
针对IO性能的IO500基准测试将几个带宽密集型和元数据密集型工作负载的分数结合起来,生成一个综合分数。然后,该分数用于对各种存储解决方案进行排名。请注意,当前的IO500基准测试没有考虑成本或生产就绪性。
根据客户端节点的数量,IO500有两个列表。第一个列表用于无限制配置,第二个列表用于所谓的“10节点挑战”(查看此处了解更多IO500详情[1])。我们此次基准测试选择了“10节点挑战”。
SUSE之前进行的基准测试也是针对“10节点挑战”的,在一个名为“Tigershark”的集群上,获得了12.43分。我们今年创建了一个新的集群,名为“Hammerhead”,继续以shark为主题。
解决方案
在2019年IO500基准测试中使用的软件堆栈没有重大更新。操作系统是SLES 15 Service Pack 1,其安装有基于Ceph版“Nautilus”的SUSE Enterprise Storage v6。
SUSE的目标是借助于完全不同的硬件平台,打破去年的成绩12.43分(11/19 IO500 列表[2]),并验证基于Arm的服务器的性能。SUSE认为,进行基准测试的任何系统都应模拟客户可能部署的生产系统,因此我们在基准测试期间启用了所有适当的Ceph安全和数据保护功能。
尽管看起来非常相似,实际上SUSE今年使用的硬件与以往有很大的不同。我们使用了基于Ampere Computing eMAG[3]处理器的Lenovo HR350A 系统[4]。eMAG是一款单路32核ARM v8架构处理器。
基准测试是在作为数据和元数据服务器的10节点集群上执行的。每台服务器配置有128GB的RAM和四个Micron 7300PRO 3.84TB NVMe 固态硬盘[5]。这些NVMe固态硬盘专为有高吞吐量和低延迟需求的工作负载设计,同时又不超出成本和功耗预算。Broadcom在每个存储节点上都提供了HBA适配器。
该集群与Mellanox的Ethernet Storage Fabric (ENF)[6]网络解决方案相关联。这种NVIDIA技术提供了一种高性能网络解决方案,可消除与传输大量数据相关的数据通信瓶颈,并且设计用于便捷式横向扩展部署。ENF在每个节点上设置了一个由SN3700 Spectrum 100GbE 开关[7]连接的ConnectX-6 100GbE NIC[8]。
集群配置
SLES配置
设置每个节点以禁用CPU限制。
设置网络配置以使用JUMBO框架(MTU 9000)。此外,还增加了NIC上的设备缓冲区,并更改了一些sysctl参数。
我们在所有系统上都使用了优化过的“吞吐量——性能测试”配置文件。
最后一个变化是改变了每个NVMEs上的IO调度程序,并将其设置为“无”。
ip link set eth0 mtu 9000
setpci -s 0000:01:00.0 68.w=5950
ethtool -G eth0 rx 8192 tx 8192
sysctl -w net.ipv4.tcp_timestamps=0
sysctl -w net.ipv4.tcp_sack=0
sysctl -w net.core.netdev_max_backlog=250000
sysctl -w net.core.somaxconn=2048
sysctl -w net.ipv4.tcp_low_latency=1
sysctl -w net.ipv4.tcp_rmem="10240 87380 2147483647"
sysctl -w net.ipv4.tcp_wmem="10240 87380 2147483647"
sysctl -w net.core.rmem_max=2147483647
sysctl -w net.core.wmem_max=2147483647
systemctl enable tuned
systemctl start tuned
tuned-adm profile throughput-performance
echo "none" >/sys/block/nvme0n1/queue/scheduler
CEPH配置
对于SUSE Enterprise Storage (SES) 配置,我们为每个NVME设备部署了四个OSD进程。这意味着每台服务器都在四台物理设备上运行着16个OSD进程。
我们在集群中的每个Arm节点上运行一个元数据服务,这意味着我们有12个活动的元数据服务在运行。
我们将元数据和数据池的PGs数量增加到4096个,以确保数据分布均匀。这与推荐的每个OSD的PGs数量(50-100)是一致的。
与上一次基准测试的设置相同,我们将数据池的数据保护级别设置为2X,以确保写入的任何数据都受到保护。
如前所述,我们还打开了集群认证,以对生产系统中的现实情况进行仿真。
结果
该基准测试获得了15.6分。这是迄今为止基于Arm平台的最佳CephFS IO500基准测试结果。这一得分比去年在“Hammerhead”平台上的成绩提高了25%,使该配置在IO500“10节点挑战”中的排名上升了两位,名列第27名。
在基准测试期间,我们发现当写入大文件时,Ceph客户端的性能指标很容易超过16GBytes/s,达到写入性能的峰值。由于我们将生产就绪型设置融入2X级别的数据保护策略,这意味着Ceph节点可实现3GB/s速度的I/O性能。
测试中最重要的发现之一是功耗,或者说是功耗降低。我们使用ipmitool测量30秒的平均功耗。最差情况下,30秒的平均功耗也只有152瓦,明显低于去年基准测试中的数据。
除了性能提升和节能之外,该群集的成本将比去年的配置成本低40%。
结论
HPC中使用的专用存储解决方案成本高昂。随着HPC和AI/ML工作负载的数据量呈指数级增长,IT部门面临着优化开支的巨大压力。该基准测试表明,基于创新软件和硬件技术的存储解决方案可以为企业提供更多选择,帮助其应对支持HPC环境所需数据量的挑战。
Ampere、Arm、Broadcom、NVIDIA、Micron、SUSE之间的合作,打造了一个新的、高性能、高能效平台。对于寻求经济高效、低功耗替代方案的任何企业或机构而言,这都是一个非常棒的存储解决方案。
IT解决方案
产品品类:
SUSE Linux企业服务器、Z系统和LinuxONE的SUSE Linux企业服务器、用于POWER的SUSE Linux企业服务器、用于ARM的SUSE Linux企业服务器、用于SAP应用程序的SUSE Linux企业服务器、SUSE Linux企业高性能计算、SUSE Linux企业实时、支持扩展的SUSE Linux企业服务器、SUSE Linux企业级服务点、SUSE Linux企业桌面、用于AmazonEC 2的SUSE Linux企业服务器、用于Azure的SUSE Linux企业服务器、SUSE Linux企业高可用性扩展、基于Geo集群的SUSE Linux企业高可用性扩展、SUSE Linux企业服务器工作站扩展、SUSE Linux企业虚拟机驱动程序包、SUSE LinuxEnterpriseLive修补、SUSE企业存储、SUSE容器作为服务平台、SUSE经理、零售经理、SUSE LinuxEnterpriseforARM、用于IBMZ和LinuxONE的SUSE Linux企业服务器、用于POWER的SUSE Linux企业服务器、SUSE嵌入式系统
运行SAP:用于SAP应用程序的SUSE Linux企业服务器、用于高可用性扩展的SUSE Linux企业服务器、、容器和应用平台、SUSE CaaS平台、SUSE云应用平台、SUSE DevOps
高可用性:用于高可用性扩展的SUSE Linux企业服务器、面向高可用性Geo集群的SUSE Linux企业、SUSE Linux企业实时、SUSE LinuxEnterpriseLive修补、SUSE Linux企业高性能计算
品牌:
SUSE Linux操作系统
解决方案:
SUSE12修改密码、suse linux 安装软件、suse系统、suse和redhat区别、opensuse使用教程、技术资源、核极限、KVM限制、Xen极限、文件系统、支持Java版本
不间断的IT、Running SAP Solutions、运行SAP解决方案、Adopting Containers、容器比例尺、Managing Hybrid Clouds、混合云解决方案、Government Solutions、Deliver Applications Faster、Harness the Data Explosion、引导数据热潮、Powering AI Advanced Analytics、幂AI与分析、Innovate at the Edge
更多品类和方案、价格 请咨询:
成都科汇科技有限公司
地址:成都市人民南路四段1号时代数码大厦18F
电话:400-028-1235
QQ: 1325383361
手机:180 8195 0517(微信同号)