Neues aus China

Chinesisches Startup mischt US-Tech-Giganten auf

Es war ein Paukenschlag. Was da im Busch war, hätten aufmerksame Beobachter auch schon vor Weihnachten sehen können. So wurde es der 10. Januar 2025. An diesem Tag trat ein chinesisches Startup mit DeepSeek R1 an die Öffentlichkeit - ein Chatbot, und nicht nur einer, der den US-Spitzenprodukten ChatGPT oder Gemini das Wasser reichen konnte, sondern laut veröffentlichten Benchmarks in einigen Punkten sogar leistungsfähiger. Besonders schmerzvoll: Statt 78 Milliarden US-Dollar für die Entwicklung von ChatGPT 4o wartete das neue Ding mit angeblich nur umgerechnet 5.6 Millionen US-Dollar (richtig gelesen: Millionen, nicht Milliarden) auf, schreibt das Handelsblatt vom 28.1.2025. Zugegeben, die chinesiche Firma hatte sich schon rechtzeitig vor den US-Exportbeschränkungen 10.000 Nvidia-Grafikkarten beschaftt. Trotzdem Schockstarre bei den US-Platzhirschen. Aber auch anerkennende Worte von den Tech-Granden.

In ihrem Kampf um die Weltherrschaft fanden sich die Amerikaner uneinholbar vorne, vor allem was die KI-Technik betrifft. Und nun eine schallende Ohrfeige für die Wunderwaffe der wirtschaftlichen Sanktionen! Deren Wirkung im wörtlichen Sinne kontraproduktiv. Die Chinesen haben dem amerikanischen Credo immer größer immer teurer nach dem Motto Not macht erfinderisch ein Sprachmodell entgegengesetzt, das mit Rechnerpower ökonomischer und mit Training deutlich sparsamer umgeht. Größe ist eben nicht alles. Ob noch mehr Rechenpower, noch mehr Big Data mit noch mehr Parametern die Zukunft ist, darf ohnehin schon seit längerer Zeit bezweifelt werden.

Die Technik hinter dem Chatbot

Die Technik von DeepSeek ist alles andere als neu. Es handelt sich um eine transformer-basierte Architektur, arbeitet mit einem Aufmerksamkeits-Algorithmus wie von Google erfunden, ist vortrainiert und wurde per Reinforcement-Training feinabgestimmt, statistische Mustererkennung ebenso mit bekannten Techniken (MCTS, CoT). Aber offensichtlich sind die Chinesen klüger und vor allem sparsamer mit den einzelnen Komponenten umgegangen.

Das System ist open source, die Verwendung unterliegt keinen Einschränkungen. Firmen können den Quellcode downloaden, das System auch örtlich installieren, on premise sozusagen, und die Lufthoheit über ihre Anwendungen behalten. Zur Stunde ist es bestimmt eine Heerschar von Experten, die über den Quellcode herfällt und sich die Dinge genauer ansieht.

Hervorzuheben ist auch, dass sich DeepSeek redlich bemüht, zu beschreiben, wie es vorgeht, um eine etwas komplexere Aufgabe zu lösen (siehe nachfolgende Selbstauskunft), also eine Art Erklärungskomponente mitliefert. Es weist auch deutlich darauf hin, dass es sich irren kann und betont ausdrücklich, dass es über kein Bewusstsein verfügt. Wen es interessiert, hier klicken für die Selbstauskunft von DeepSeek.

Frage: Beschreibe bitte kurz die Technik, die hinter deinem Reasoning-Modell steht.

Sie sehen zuerst die Verbalisierung des Systems für die Strukturierung der Aufgabenlösung

Okay, der Benutzer hat die gleiche Frage noch einmal gestellt: "Beschreibe bitte kurz die Technik, die hinter deinem Reasoning-Modell steht." In der vorherigen Unterhaltung hatte ich bereits eine ausführliche Antwort gegeben, die die transformerbasierte Architektur, Selbstaufmerksamkeit, Prätraining, Feinabstimmung mit RLHF und statistische Mustererkennung erwähnte. Jetzt muss ich entscheiden, ob die erneute Frage eine Wiederholung erfordert oder ob der Benutzer möglicherweise eine andere Art der Erklärung wünscht.

Vielleicht war die erste Antwort zu technisch oder der Benutzer möchte eine prägnantere Version. Oder er sucht nach zusätzlichen Details, die ich zuvor nicht erwähnt habe. Ich sollte die ursprüngliche Antwort überprüfen, um sicherzustellen, dass ich alle wichtigen Punkte abgedeckt habe, und überlegen, ob ich sie etwas anpassen kann, um Klarheit oder Kürze zu verbessern.

Da die Frage "kurz" betont, könnte der Benutzer eine Zusammenfassung ohne zu viele technische Begriffe wünschen. In meiner vorherigen Antwort habe ich bereits Stichpunkte verwendet, aber vielleicht kann ich es noch einfacher formulieren. Außerdem sollte ich den Hinweis beibehalten, dass das Modell kein echtes Verständnis hat, um Missverständnisse zu vermeiden.

Eventuell könnte der Benutzer auch neugierig auf die zugrundeliegenden Mechanismen sein, die das Reasoning ermöglichen, wie z.B. die Rolle von Aufmerksamkeitsebenen oder wie RLHF genau funktioniert. Aber da die Frage nach einer kurzen Beschreibung verlangt, sollte ich nicht zu sehr ins Detail gehen. Stattdessen könnte ich die Schlüsselkomponenten noch einmal klar und knapp auflisten, vielleicht mit etwas weniger Fachjargon.

Ich muss auch prüfen, ob die Emojis und Hervorhebungen in der vorherigen Antwort angemessen waren oder ob eine schlichtere Formatierung besser wäre. Da der Benutzer die gleiche Frage stellt, könnte er die vorherige Antwort nicht vollständig verstanden haben oder eine andere Perspektive wünschen. Daher sollte ich sicherstellen, dass die Erklärung klar ist und die wesentlichen Punkte hervorhebt, ohne zu überladen zu sein.

Zusammenfassend werde ich die Antwort strukturiert halten, die Hauptkomponenten nennen, auf Prätraining und Feinabstimmung eingehen, die Rolle der Aufmerksamkeitsmechanismen erklären und die statistische Natur des Modells betonen, um Klarheit zu schaffen. Ich werde auch den Hinweis wiederholen, dass es sich um eine Simulation ohne echtes Verständnis handelt, um mögliche Missverständnisse auszuräumen.

Hier der Erklärungstext beim erste: Aufruf:

Okay, the user is asking me to briefly explain the technology behind my reasoning model. Let me start by recalling what I know about how these models work.

First, I should mention that I'm based on a transformer architecture. That's the foundation. Transformers use self-attention mechanisms to process words in relation to each other, right? But I need to explain that in simple terms without getting too technical.

Then there's the training part. I was trained on a massive amount of text data. But wait, the user might not know what pretraining and fine-tuning mean. I should clarify that. Pretraining is where the model learns language patterns, and fine-tuning adjusts it for specific tasks. Oh, and there's RLHF—Reinforcement Learning from Human Feedback. That's important for aligning the model's responses with human values. Maybe I should mention that human trainers rank responses to help the model learn better.

Also, the model generates responses token by token, predicting the next word based on context. But how does that relate to reasoning?

It's more about pattern recognition and statistical probabilities rather than actual understanding. I should make that distinction clear to avoid misconceptions.

Wait, the user asked specifically about the reasoning model. Do they mean how the model appears to reason? It's actually generating plausible sequences based on training data, not true reasoning like humans. So I need to explain that it simulates reasoning through patterns rather than actual logical deduction.

I should also touch on limitations. Since it's pattern-based, there can be inaccuracies or hallucinations.

Maybe include a note about that to set the right expectations.

Let me structure this: start with the transformer architecture, then pretraining and fine-tuning with RLHF, mention token-by-token generation, and clarify that it's statistical pattern recognition rather than true reasoning. Keep it concise as per the user's request for a brief description.

Jetzt sehen Sie die Auflösung der Aufgabenstrukturierung in einer zusammenfassenden Antwort:

Mein Reasoning-Modell basiert auf einem transformerbasierten Architekturansatz, der durch Large-Scale Pretraining auf vielfältigen Textdaten trainiert wurde. Die Kernkomponenten sind:

  • Selbstaufmerksamkeit (Self-Attention): Erkennt Zusammenhänge zwischen Wörtern, um Kontext zu erfassen (z. B. "Bank" als Finanzinstitut vs. Sitzmöbel).
  • Prätraining & Feinabstimmung:
  • Prätraining: Lernen von Sprachmustern durch Vorhersage von Textstellen (z. B. Masked Language Modeling).
  • Feinabstimmung: Anpassung an spezifische Aufgaben (z. B. Dialoge) mittels menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF), um hilfreiche, sichere Antworten zu fördern.

Statistische Mustererkennung: Generierung von Antworten durch probabilistische Vorhersage des nächsten Tokens (Wortteils) basierend auf trainierten Mustern – kein "echtes" logisches Denken, sondern Simulation durch Datenkorrelationen.

Hinweis: Das Modell hat kein Bewusstsein oder tiefes Verständnis, sondern kombiniert gelernte Muster kreativ, was manchmal zu Halluzinationen führen kann.

Ende DeepSeek


Über Details der internen Aufgabenverteilung bei der Bearbeitung einer komplexeren Anfrage verhält sich das System etwas, sagen wir einmal, zurückhaltend:

The server is busy. Please try again later.
wir DeepSeek 5.2.2025 12: 45 Uhr

Vielleicht haben wir später mehr Glück. Immerhin war zu erfahren: Wenn eine Anfrage spezielle Fähigkeiten erfordert, wird sie zerlegt und die Teile an ein spezielles Unterprogramm oder Tool weitergeleitet. Diese Tools sind oft für bestimmte Aufgaben entwickelt und können

  • aktuelle Daten abrufen (z. B. über APIs wie Suchmaschinen oder Nachrichtendienste),
  • komplexe Berechnungen durchführen (z. B. mathematische oder wissenschaftliche Tools)
  • oder gezielte Informationen aus Datenbanken extrahieren.

Gerne hätten wir gewusst, wie im Detail der Dispatching-Algorithmus funktioniert, nach dem die Aufgaben innerhalb des Sprachmodells verteilt werden.

DeepSeeks Antwortzeiten sind deutlich länger als bei ChatGPT oder Gemini, aber das kann viele Gründe haben. Man kann zurzeit noch nicht mit Spracheingabe arbeiten und sich die Antwort vorlesen lassen. Mit Bildern kann es auch noch nicht. Zum Zeitpunkt, zu dem ich diesen Text schreibe, sind auch erst 36 Sprachen unterstützt, aber das soll sich bald ändern.

Der große Schreck

der westlichen Tech-Giganten beruht nicht auf der meilenweit besseren DeepSeek-Technik, sondern vor allem

  • auf der kurzen Zeit von nur wenigen Monaten, die die Chinesen brauchten, um ein den für unerreichbar geglaubten US-amerikanischen Modellen ebenbürtiges System zu entwicklen,
  • auf dem deutlich kürzeren Training, und die damit verbundenen um das geschätzt Zwanzigfache niedrigeren Kosten und Zeitaufwendungen, aber ganz besonders
  • wie es die Chinesen hinbekommen haben, mit viel weniger und nicht so hochleistungsfähigen Computerchips (2.800 statt 16.000 GPUs) ihr Ergebnis zu erreichen.

Und was sagt China dazu?

DeepSeek's success gives Chinese firms jolt as Beijing seeks sanction-beating breakthroughs‚

DeepSeek disruption: how far will US go to keep its advanced AI lead over China?

- South China Morning Post vom 4.2.2025

Nun geht die Angst um, dass die hochentwickelte Künstliche Intelligenz zu einer Art commodity werden könnte, viele kleinere Firmen mit deutlich weniger Geld und weniger Computerressourcen ähnlich leistungsstarke Systeme entwickeln können und die US-amerikanischen Tech-Riesen ihre Vormachtstellung schnell einbüßen könnten. Schlecht für America first.

Jedenfalls ist die Verunsicherung der Tech-Giganten groß. Der britischer Sicherheitsexperte Graham Cluley meint:

"Wenn die Chinesen tatsächlich in der Lage waren, eine wettbewerbsfähige KI zu entwickeln, die die Lösungen etablierter Tech-Giganten mit Blick auf die Entwicklungskosten massiv unterbietet und mit einem Bruchteil der Hardware auskommt, wird das die Karten neu mischen."

OpenAI legt schnell mit der Prognose eines neuen Tiefen-Reasoning nach. Das soll dann wieder den Spitzenplatz zurückbringen.

Natürlich wird auch viel gemäkelt. Die wirklichen Entwicklungskosten seien doch viel höher. 60.000 statt der zugegeben rechtzeitig beschafften 10.000 GPUs seien nach Berechnungen des sich als unabhängiges Forschungsinstitut bezeichnenden Unternehmens SemiAnalysis im Einsatz, geschätzter Preis 1.6 Milliarden US-Dollar.

Und mit dem Datenschutz und der Security sei es auch nicht weit her: G

"Das Modell von DeepSeek AI demonstriert eine starke Performance und Effizienz und ist ein potenzieller Herausforderer für die Tech-Giganten. In Sachen Security, Datenschutz und -sicherheit hinkt DeepSeek R1 allerdings hinterher",

resümieren die Forscher des Threat-Intelligence-Anbieters Kela und mahnen Unternehmen zur Vorsicht. Gravierende Schwachstellen will man aufgedeckt haben. Kein ausreichender Filter-Schutz gegen Hassreden, Bombenbau, „Desinformationen“ und sonstige für schädlich erklärte Inhalte sei festzustellen. Das Cisco-Team, das solche Tests durchführte, gab dann aber etwas kleinlaut zu, dass auch andere etablierte Modelle schlecht abschnitten, z.B. Metas Sprachmodell Llama 3.1, laut t:n digital pioneers vom 3.2.2025.

Den Vogel abgeschossen haben aber übereifrige US-Senatoren, die ein Gesetz für ein Verbot von DeepSeek vorbereiten, mit harten Strafen bis zu 20 Jahren Haft für Verstöße. Würde sich demnach ein KI-Unternehmen dazu entscheiden, ein System per open source für die ganze Welt zur Verfügung zu stellen, so soll das ebenfalls strafbar sein, so laut t:n news vom 4.2.2025. Vermutlich stehen wir kurz vor einem Tsunami ähnlicher Ideen.

Und italienische Tester fanden DeepSeeks Humor etwas gruselig. Diese Kritik hat sich nun erübrigt, weil nach Zugang einer Sperrungsandrohung von Italiens Datenschutzbehörde DeepSeek AI seine App für Italiens Einwohner unzugänglich gemacht habe.

Klar wird auch heftig gewarnt vor politischen Verzerrungen in den Auskünften der chinesischen App, offensichtlich in der Annahme, die Amerikaner seien frei von solchen „Bias“ genannten Mängeln. Wir haben das einmal anhand einer politisch in der Welt streitig beurteilten Frage gecheckt. Hier finden Sie das Ergebnis.