DeepSeek R1 - chiński sputnik?

Jakub NorkiewiczJakub Norkiewicz
środa 21:145 min czytania

DeepSeek to chińska firma AI, która na przełomie 2023 i 2024 roku wprowadziła serię modeli językowych, które wstrząsnęły branżą AI. Jak korzystać z tych modeli?

Featured image

DeepSeek – Co to jest, jak działa i dlaczego jest przełomowy?

DeepSeek to chińska firma AI, która na przełomie 2023 i 2024 roku wprowadziła serię modeli językowych, które wstrząsnęły branżą AI. Najnowsze modele – V3 oraz R1 – pokazują, że możliwe jest tworzenie modeli AI konkurujących z największymi graczami (OpenAI, Anthropic) przy znacznie niższych kosztach i z otwartym dostępem do wag modelu.

Najważniejsze informacje o DeepSeek

  • Główne modele: DeepSeek V3 (model ogólnego zastosowania) oraz R1 (model do rozumowania)
  • Typ dostępu: Open weights – wagi modelu są publicznie dostępne
  • Koszt treningu: Około $5.6 miliona dla modelu V3 (tylko finalne trenowanie)
  • Konkurencyjność: Porównywalny z OpenAI GPT-4 i Claude 3

DeepSeek a Nvidia – przełom w efektywności

DeepSeek dokonał przełomu w efektywności trenowania modeli AI. Firma wykorzystała karty Nvidia H800 (słabsze od H100 ze względu na ograniczenia eksportowe USA), ale zoptymalizowała swój model i infrastrukturę tak, by osiągnąć maksymalną wydajność:

  • Wykorzystanie architektury MoE (Mixture of Experts) – aktywowanie tylko potrzebnych części modelu
  • DeepSeekMLA – kompresja pamięci podczas wnioskowania
  • Optymalizacja na poziomie niskopoziomowego kodu GPU (PTX)

DeepSeek R1 vs OpenAI

Model R1 jest bezpośrednią odpowiedzią na OpenAI o1 (część GPT-4) i wykazuje podobne zdolności rozumowania:

Cecha DeepSeek R1 OpenAI o1
Dostępność Open weights – możliwość uruchomienia lokalnie Tylko przez API OpenAI
Zdolności rozumowania Porównywalne z o1 Pierwszy powszechnie dostępny model rozumowania, uznawany za wyznacznik jakości
Koszt użytkowania Niższy – możliwość uruchomienia na własnej infrastrukturze Wyższy – płatność za tokeny poprzez API

Sprzęt i infrastruktura

Według doniesień branżowych, DeepSeek wykorzystał do treningu około 50,000 kart Nvidia Hopper (H800). Te informacje pochodzą z tweeta analityka Dylana Patela z listopada 2024 roku. Same karty H800 to zmodyfikowane (ze względu na restrykcje eksportowe USA) wersje H100, z ograniczoną przepustowością pamięci.

Ważne: Dokładna liczba GPU używanych przez DeepSeek nie jest oficjalnie potwierdzona. Firma potwierdziła jedynie, że finalny trening modelu V3 wymagał 2,788 tysięcy godzin pracy na kartach H800.

Modele uncensored – DeepSeek R0

Warto wspomnieć o istnieniu modelu DeepSeek R0, który jest wersją bez nałożonych ograniczeń etycznych i cenzury. Model ten może odpowiadać na pytania o kontrowersyjne wydarzenia historyczne (np. protesty na placu Tiananmen) czy tematy polityczne bez filtrowania odpowiedzi. Jest to znacząca różnica w porównaniu do zachodnich modeli AI, które mają wbudowane zabezpieczenia ograniczające tego typu odpowiedzi.

Uwaga: Korzystanie z modeli uncensored wymaga świadomości etycznej i odpowiedzialnego podejścia do otrzymywanych informacji.

Ceny API DeepSeek R1

Model R1 jest dostępny w dwóch wersjach: darmowej (free) oraz standardowej. Poniżej przedstawiamy porównanie cen u różnych dostawców API (dane na 29 stycznia 2025 roku):

Dostawca Koszt Input (za 1M tokenów) Koszt Output (za 1M tokenów) Kontekst Latencja Przepustowość
Chutes (wersja free) $0 $0 128K 26.00s 10.25t/s
Together $7 $7 164K 38.78s 9.76t/s
Fireworks $8 $8 164K 17.09s 17.00t/s
DeepSeek Official $0.55 $2.19 64K 14.47s 2.46t/s
DeepInfra $0.85 $2.50 16K 38.85s 3.70t/s
Hyperbolic Labs $2 $2 N/A 164K N/A
Perplexity $1 $5 127K 8.08s 56.68t/s

Wskazówka: Wybierając dostawcę API, warto zwrócić uwagę nie tylko na cenę, ale także na:

  • Wielkość kontekstu (Context) – im większy, tym model może przetworzyć dłuższe zapytania
  • Latencję – określa szybkość pierwszej odpowiedzi
  • Przepustowość (Throughput) – ile tokenów na sekundę model może przetworzyć

Prywatność przy korzystaniu z DeepSeek R1

Ważne ostrzeżenie dotyczące prywatności na chat.deepseek.com i oficjalnym API DeepSeek:

  • Korzystając z oficjalnych usług DeepSeek chat.deepseek.com oraz API, użytkownik przekazuje firmie pełne prawa do wykorzystania wszystkich przesłanych danych
  • DeepSeek może wykorzystać wszystkie wiadomości wymienione z modelem w dowolny sposób
  • Nie ma gwarancji poufności danych przesyłanych przez oficjalne kanały DeepSeek
  • Wrażliwe dane biznesowe i osobowe nie powinny być przekazywane przez oficjalne API DeepSeek

Alternatywne rozwiązanie – inni dostawcy:

  • DeepSeek R1 jest modelem open source, co pozwala innym firmom na hostowanie go z własnymi zasadami prywatności
  • Dostawcy tacy jak Together, Fireworks czy DeepInfra mają własne polityki prywatności, często bardziej restrykcyjne
  • Przed wyborem dostawcy należy dokładnie zapoznać się z ich Privacy Policy
  • Niektórzy dostawcy mogą oferować gwarancję nieużywania danych do treningu modeli czy innych celów komercyjnych

Rekomendacja: Przed rozpoczęciem korzystania z modelu DeepSeek R1 u któregokolwiek dostawcy, należy:

  1. Dokładnie przeczytać politykę prywatności danego dostawcy
  2. Sprawdzić, gdzie są przechowywane dane i jak długo
  3. Zweryfikować, czy dostawca udostępnia dane stronom trzecim
  4. W przypadku danych wrażliwych rozważyć dostawców oferujących dodatkowe gwarancje prywatności

Gdzie można skorzystać z DeepSeek R1?

Dostęp darmowy:

chat.deepseek.com

  • Darmowy dostęp do modelu poprzez interfejs webowy
  • Wymaga rejestracji
  • Brak limitu wiadomości
  • Uwaga: Pamiętaj o ograniczeniach prywatności opisanych wyżej

Dostęp płatny (5 darmowych wiadomości dziennie):

Perplexity ($20/miesiąc za limit 50 wiadomości dziennie)

  • Dostęp do DeepSeek R1 w ramach subskrypcji
  • Dodatkowe modele i funkcje w ramach abonamentu
  • Interfejs webowy i aplikacja mobilna

Alternatywne opcje:

  • Możliwość samodzielnego hostowania modelu (wymaga odpowiedniej infrastruktury)
  • Korzystanie z API poprzez różnych dostawców (patrz tabela cen powyżej)
  • Integracja z własnymi aplikacjami poprzez API

Innowacje w trenowaniu – R1-Zero

Szczególnie interesujący jest model R1-Zero, który został wytrenowany przy użyciu czystego uczenia przez wzmacnianie (RL), bez udziału człowieka w pętli zwrotnej. Model samodzielnie nauczył się rozumowania i rozwiązywania problemów, co jest znaczącym krokiem w kierunku bardziej autonomicznego AI.

Co to oznacza dla użytkowników?

  • Dostęp do zaawansowanych możliwości AI przy niższych kosztach
  • Możliwość uruchomienia modelu lokalnie
  • Większa kontrola nad prywatnością danych
  • Potencjał do tworzenia własnych zastosowań AI