问题描述

最近,我发现我的某台服务器在某个特定时间段内CPU和内存使用率异常升高,导致系统卡死,进而引发网站宕机,在这里给大家分享一下解决方案以及思路

解决过程

一开始,通过Grafana检查了系统的负载情况,发现CPU、内存和IO的使用率在特定时间段内显著升高。这种资源的突然增加通常指示有进程在后台执行资源密集型操作,然后发现systemd进程在这些时间段内占用了大量的系统资源。systemd是Linux系统中用于初始化系统组件和服务的系统管理器,它的资源占用通常不会如此之高,为了确定具体原因,检查了下系统日志。在系统重启前的几条日志中,发现了一条关键日志:dnf makecache

说明在系统宕机前,dnf包管理器正在执行makecache操作,即生成或更新软件包的元数据缓存,推断dnf makecache可能是导致系统资源占用过高的直接原因,因为dnf makecache操作在执行时会下载和解析大量的软件包元数据,这可能会在短时间内消耗大量的CPU和内存资源,尤其是在低配的主机中。
解决方案

为了防止dnf makecache在不适当的时间自动执行,我才用了个最简单最暴力的方法,禁止自动更新

systemctl stop dnf-makecache.timer
systemctl disable dnf-makecache.timer

这样就不会自动的去执行 makecache了,此问题到此得到解决~

Last modification:June 5, 2025
如果觉得我的文章对你有用,请随意赞赏