Seit einiger Zeit bekam ich regelmäßig – immer um die gleichen Tageszeiten – Nagios-Meldungen, dass einer meiner Linux-Server nicht erreichbar sei. Nach einigen Minuten kam dann direkt die Recovery-Meldung, das System reagierte wieder einwandfrei.
Jetzt bin ich der Sache einmal auf den Grund gegangen:
Immer dann, wenn die CPU-Auslastung des betroffenen Servers (eine VMWare-VM unter Debian Lenny, Kernel 2.6.26-2) aufgrund von durchgeführten Cronjobs längere Zeit recht hoch war, tauchten folgende Kernel-Meldungen im Syslog auf:
kernel: [9662291.183750] BUG: soft lockup - CPU#0 stuck for 226s! [named:4966]
kernel: [9662291.183750] Modules linked in: ipv6 vmhgfs loop parport_pc [...]
kernel: [9662291.183750]
kernel: [9662291.183750] Pid: 4966, comm: named Not tainted (2.6.26-2-686 #1)
kernel: [9662291.183750] EIP: 0073:[
kernel: [9662291.183750] EIP is at 0xb7362d50
kernel: [9662291.183750] EAX: 0001b8d5 EBX: b738fff4 ECX: 00000000 EDX: b6c58008
kernel: [9662291.183750] ESI: b6c560f8 EDI: b6c560d0 EBP: b6c388d8 ESP: b6c388ac
kernel: [9662291.183750] DS: 007b ES: 007b FS: 0000 GS: 0033 SS: 007b
kernel: [9662291.183750] CR0: 8005003b CR2: b76ef000 CR3: 166d6000 CR4: 000006d0
kernel: [9662291.183750] DR0: 00000000 DR1: 00000000 DR2: 00000000 DR3: 00000000
kernel: [9662291.183750] DR6: ffff0ff0 DR7: 00000400
kernel: [9662291.183750] =======================
Die Behebung des Fehlers war recht einfach:
Nach dem Hinzufügen der Werte “acpi=off noapic” zu den Boot-Parametern, ist das Problem nun verschwunden.
Angenehmer Nebeneffekt: das komplette System reagiert nun etwas fluffiger.
Grund für dieses seltsame Verhalten ist, wie eine kurze Internet-Recherche ergab, wohl das Zusammenspiel der virtuellen Maschine mit dem VMWare-Host. Genaueres dazu konnte ich bislang leider nicht herausfinden.
Hallo,
mich interessiert besonders, was ein CPU-Softlockup ist, leider ist google da nicht sonderlich gesprächig. Hast du da mittlerweile etwas genaueres herausgefunden?
Beste Grüße
Basti