Nvidia 6000 Pro Absturz


Auf einem unserer lokalen LLMs kommt ein Rechner mit Nvidia 6000 Pro zum Einsatz. Dies stürzte über Monate ohne erkennbaren Grund bei der Nutzung von LLMs vollständig ab. Keine Systemlogs, keine Logs in den Anwendungen. Dies sowohl unter LINUX, als auch unter Windows.

Die Suche nach fehlerhaften Komponenten und thermischen Problemen bleib erfolglos.

Schlussendlich hat jemand auf Reddit die Lösung gepostet – vielen Dank dafür!!!

https://www.reddit.com/r/LocalLLaMA/comments/1pgeda8/rtx6000pro_stability_issues_system_spontaneous/?tl=de

Die Karte scheint unter bestimmten Bedingungen zu hoch getaktet zu werden. Daher sollte der Takt manuell angepasst werden.

nvidia-smi -lgc 180,2400

Die entsprechenden Werte müssen natürlich individuell bestimmt werden.

Du hast Fragen oder Anmerkungen? Kontakt: arndt@schoenb.de