Przejdź do treści

AI i LLM on-premise

AI i LLM on-premise — gdzie chmura to nie opcja

Wdrażamy LLM lokalnie: Ollama, vLLM, Llama 3, Mistral, polskie modele. Dane nie opuszczają Twojej infrastruktury. Sektor publiczny, banki, zdrowie.

Potrzebujesz AI bez wysyłania danych na zewnątrz?

Pierwszy model produkcyjny w 4 tygodnie na Twojej infrastrukturze.

Dlaczego SNOK

4 powody, dla których warto

  • 1

    Klient sektora publicznego — LLM on-prem + Document Understanding w 8 tygodni, zero danych poza infrastrukturę klienta.

  • 2

    Wiemy jak dobierać model (Llama / Mistral / Qwen / polskie modele) pod konkretny use case — nie „bo GPT".

  • 3

    Hardware expertise — Lenovo Platinum Partner, sizing GPU (NVIDIA H100, L40S) pod workload.

  • 4

    Fine-tuning pod polski język — większość modeli ma polski jako drugorzędny.

Zakres usługi

Co dostarczamy

Wybór modelu

Benchmark modeli (Llama 3.3, Mistral Large, Qwen, polskie) dla Twojego use case.

Hardware sizing

GPU sizing (H100/L40S/A100), CPU, RAM, storage. Lenovo referencje jako Platinum Partner.

Inference stack

Ollama, vLLM, TensorRT-LLM. Batching, quantization (INT8/INT4), load balancing.

RAG (Retrieval-Augmented Generation)

Chroma/Qdrant/PostgreSQL z pgvector. Embedding, re-ranking, chunking pod polski.

Fine-tuning pod polski

LoRA/QLoRA fine-tuning na Twoich danych. Polskie prompty, instrukcje, formatowanie.

Integracja z aplikacjami

REST API dla SAP, Power Platform, custom apps. Authentication, rate limiting, audit.

Monitoring i cost control

Latency, throughput, token usage, GPU utilization. Prometheus/Grafana dashboards.

Wycena

Jak wyceniamy

Konsultacje + sizing: fixed fee. Hardware (Lenovo) + software inference: CapEx lub OpEx (leasing). Development aplikacji: T&M. Typowy projekt on-prem LLM: 6–12 tyg. do produkcji.

Poproś o konkretną ofertę

Wybrane realizacje

Robiliśmy to dla:

Konkretne liczby, technologie i cytaty - na rozmowie.

Sąd Apelacyjny we Wrocławiu

Automatyzacja procesów + audyt SAP HANA

FAQ

Najczęściej zadawane pytania

Ile GPU potrzebuję?

Zależy od modelu i wolumenu. Llama 70B w FP8 — 1× H100 80GB (concurrent ~20–40 użytkowników). Llama 405B — potrzeba 4–8× H100. Mniejsze modele (8B–13B) — 1× L40S lub A100. Sizing robimy w pierwszym tygodniu.

Jaki koszt?

Hardware: 1× serwer Lenovo z 4× H100 — ~150–250k EUR CapEx. Można leasingować (OpEx). Development aplikacji: 4–12 tygodni pracy. Fine-tuning: 1–4 tygodnie.

Które modele są OK pod język polski?

Llama 3.3 70B — dobra. Mistral Large — dobra. Qwen 2.5 — coraz lepsza. Bielik (polski model od SpeakLeash) — świetna dla zadań PL-native. Rekomendujemy po benchmarku na Twoich zadaniach.

LLM on-premise — kontrola, bezpieczeństwo, polski

30 minut z ekspertem SNOK - konkretna diagnoza, oferta w 48h, bez sprzedażowego pitchu.