Windows vs Linux w lokalnym AI - dlaczego Twój system operacyjny ogranicza kartę graficzną
Jeśli interesujesz się lokalnym uruchamianiem modeli AI, prawdopodobnie większość czasu spędzasz na analizowaniu specyfikacji kart graficznych. Ilość rdzeni CUDA, przepustowość pamięci, a przede wszystkim - VRAM. To święty graal każdego, kto stawia LLM-y na własnym sprzęcie.
Ale co, jeśli tracisz cenne zasoby swojej karty graficznej, nawet nie dotykając sprzętu?
Nowe testy przeprowadzone przez Zena van Riela - ponad 100 benchmarków porównawczych - rzucają nowe światło na odwieczną wojnę Windows vs Linux. Wnioski są jednoznaczne: jeśli poważnie myślisz o AI, czas przeprosić się z pingwinem. I wcale nie chodzi o szybkość obliczeń.
Mit szybkości: to nie o tokeny chodzi
Zacznijmy od obalenia popularnego mitu. Czy Linux jest szybszy w generowaniu tekstu (tokeny na sekundę) niż Windows?
Tak, ale nieznacznie. Różnica w czystej mocy obliczeniowej wynosi zaledwie 2-3% na korzyść Linuxa.
Gdyby chodziło tylko o to, przesiadka nie byłaby warta zachodu. Prawdziwa gra toczy się jednak o coś znacznie cenniejszego niż sekundy. Toczy się o miejsca w pamięci VRAM.
VRAM: Twoje najcenniejsze zasoby
Największym odkryciem z benchmarków jest to, jak oba systemy zarządzają pamięcią karty graficznej.
| Cecha | Windows | Linux |
|---|---|---|
| Środowisko graficzne | Ciężki interfejs, priorytet GPU | Lekkie DE lub tryb headless |
| Rezerwacja VRAM na system | Wysoka (compositor, DWM) | Minimalna |
| Dostępny VRAM dla modeli | Mniej o ~800 MB | Pełna pula |
| Tryb bez GUI | Praktycznie niemożliwy | Natywny (headless) |
Na Linuxie zyskujesz średnio 800 MB pamięci VRAM więcej - na samym starcie, zanim załadujesz cokolwiek.
Może się wydawać, że to niewiele. Ale w świecie LLM, gdzie każdy megabajt decyduje o tym, czy uda Ci się załadować model, czy zobaczysz błąd OOM (Out Of Memory), 800 MB to przepaść. To różnica między uruchomieniem modelu w kwantyzacji Q4 a Q5, albo drastyczne zwiększenie okna kontekstowego - ilości tekstu, jaki model pamięta podczas rozmowy.
Przeliczmy to na konkretny przykład:
| Scenariusz | Windows (24 GB VRAM) | Linux (24 GB VRAM) |
|---|---|---|
| Dostępne dla modelu | ~22.8 GB | ~23.6 GB |
| Llama 3 70B Q4_K_M | Ledwo się mieści / OOM | Działa stabilnie |
| Kontekst 32K tokenów | Brak pamięci | Możliwy |
| Kontekst 8K tokenów | Działa | Działa |
Przy kartach z 16 GB VRAM (RTX 4060 Ti, RTX 5060 Ti) te 800 MB to już 5% całej pamięci - różnica, która realnie zmienia listę modeli, jakie możesz uruchomić.
Dlaczego WSL2 to pułapka
Wielu użytkowników Windowsa myśli: „Użyję WSL2 (Windows Subsystem for Linux), najlepsze z obu światów".
Dane pokazują coś odwrotnego. W kontekście AI, WSL2 to najgorsze z obu światów. Twój komputer musi wtedy utrzymać ciężki interfejs Windowsa (zjadający VRAM) oraz narzut wirtualizacji Linuxa. W efekcie masz jeszcze mniej dostępnej pamięci dla modelu niż na czystym Windowsie.
| Środowisko | Narzut VRAM | Narzut CPU | Dostęp do GPU |
|---|---|---|---|
| Windows natywny | ~1.2 GB | Bazowy | Bezpośredni |
| WSL2 | ~1.4 GB | Wirtualizacja | Passthrough (dodatkowy koszt) |
| Linux natywny | ~0.4 GB | Bazowy | Bezpośredni |
WSL2 świetnie sprawdza się do web developmentu czy skryptów. Do inferencji modeli AI - nie.
Ubuntu: król dżungli AI
Choć istnieje wiele dystrybucji Linuxa (Arch, Fedora, NixOS), w świecie sztucznej inteligencji króluje Debian/Ubuntu.
Dlaczego? To kwestia ekosystemu. Najważniejsze biblioteki i narzędzia są pisane „Ubuntu-first":
- vLLM - biblioteka do inferencji, znacznie szybsza niż standardowe rozwiązania, działa natywnie i stabilnie głównie na Linuxie
- Lambda Stack - gotowe zestawy sterowników i narzędzi ML, instalacja jednym poleceniem
- Docker - na Linuxie konteneryzacja jest natywna. Na Windowsie Docker to kolejna warstwa wirtualizacji zjadająca zasoby
- NVIDIA Container Toolkit - GPU passthrough do kontenerów, zero narzutu
To nie jest kwestia preferencji. To kwestia tego, że 90% tutoriali, dokumentacji i issues na GitHubie zakłada Ubuntu. Jeśli coś nie działa, na Ubuntu znajdziesz rozwiązanie w 5 minut. Na Windowsie - będziesz pierwszy, kto o to pyta.
Czy musisz formatować dysk?
Nie koniecznie. Oto drzewo decyzyjne:
Używasz AI lokalnie?
├── Hobbystycznie, proste pytania
│ └── Windows wystarczy
├── Poważnie, ale nie chcesz porzucać Windowsa
│ └── Dual Boot (Linux obok Windowsa)
│ └── Koszt: 0 PLN, 2h konfiguracji
└── Profesjonalnie / produkcyjnie
└── Linux natywny (Ubuntu/Debian)
└── Koszt: 0 PLN, pełna wydajność GPUJeśli:
- Walczysz o każdy megabajt VRAM, by zmieścić większy model (Llama 3 70B, Mixtral, DeepSeek)
- Chcesz pracować z długim kontekstem rozmowy
- Planujesz używać profesjonalnych narzędzi jak vLLM czy TGI
...to Dual Boot albo pełna instalacja Linuxa to najlepsza darmowa aktualizacja sprzętu, jaką możesz sobie sprawić. Zyskujesz wydajność karty graficznej o klasę wyższej, inwestując jedynie czas w konfigurację.
A co z produkcyjnymi wdrożeniami AI?
Lokalne modele na desktopie to jedno. Ale jeśli budujesz system biznesowy z komponentami AI - klasyfikacja tekstu, RAG, asystent wiedzy, analiza dokumentów - to potrzebujesz czegoś więcej niż kartę graficzną i Ubuntu.
Potrzebujesz architektury, która pozwoli Ci uruchamiać modele w tym samym środowisku, w którym działa Twoja aplikacja. Bez osobnego serwisu w Pythonie, bez HTTP między komponentami, bez MLOps overhead.
Elixir z Nx, Bumblebee i Livebook daje dokładnie to - natywną inferencję w BEAM, z pełną kontrolą nad danymi i infrastrukturą. Na Linuxie, oczywiście.
Porozmawiajmy - pokażemy Ci, jak wbudować AI w system biznesowy na Elixirze bez budowania osobnego stosu MLOps.