DeepSeeks heimlicher Erfolgsfaktor

Chinas KI-Entwicklungsunternehmen DeepSeek hat die westliche Technologie- und Investitionslandschaft kräftig aufrüttelt: starke Leistung, günstiger Preis, extrem geringe Entwicklungskosten, offene (open source) Architektur und Börsenchreck für die amerikanischen HighTecs. Von einem Geschenk an die Menschheit war sogar die Rede (RND 28.1.2025).

Aber was nicht sein darf, kann nicht sein. Die Entwicklung sei doch nicht so extrem preisgünstig, die Sicherheit sei nicht gewährleistet, Spione lauern überall, und die Trainingsdaten seien gestohlen, hört man aus der OpenAI-Ecke. Klar, die Chinesen klauen halt.

In der South China Morning Post vom 14. Februar 2025 konnte man Interessantes über die Hintergründe erfahren. Dort hieß es sinngemäß:

Die chinesischen nationalen Diskussionen konzentrieren sich eher auf die Frage, was dem Sprachmodell seinen überraschenden Vorsprung gegenüber Konkurrenten wie ChatGPT verschafft hat. In Online-Communitys setzt sich jedoch zunehmend die Meinung durch, dass sein Erfolg zum großen Teil auf die Einbindung chinesischer Schriftzeichen in der Vortrainingsphase zurückzuführen ist.

Man geht davon aus, dass die höhere Informationsdichte der chinesischen Trainingsdaten die logischen Fähigkeiten von DeepSeek verbessert hat, sodass es komplexe Konzepte effektiver verarbeiten kann. Befürworter dieser Theorie argumentieren, dass DeepSeek durch das Training in Chinesisch sein Sprachverständnis verbessern konnte. Chinesische Schriftzeichen sind Ideogramme und vermitteln Bedeutung, auch wenn sie falsch geschrieben sind, sodass der Leser den Text trotzdem verstehen kann.

Originaltext zeigen

The assumption is that the higher information density of Chinese training data improved DeepSeek's logical abilities, allowing it to handle complex concepts more effectively. Proponents of this theory argue that training on Chinese allowed DeepSeek to sharpen its language comprehension. Chinese characters, being ideograms, convey meaning even if they are written incorrectly, allowing readers to still understand the text.

"Chinese Characters achive maximum information transmission with minimal cost. As an efficient information encoding, Chinese has greatly improved efficiency and reduced costs in the processing of artificial intelligence," said Xiang Ligang, an telecommunications industry analyst and public opinion leader ....

Quelle: South China Morning Post: Strokes of genius: why DeepSeek's AI edge may come from its Chinese lessons, 14.2.2025


Chinesische Schriftzeichen sind im Gegensatz zu den Buchstaben unserer Texte oft mit vielfältigen Informationen wie Bildern und Audiodaten verknüpft. In einem Bericht des Technologie-Medienportals DeepTech betonte Yang Zhuoran, Assistenzprofessor an der Yale University, die Bedeutung der Datenqualität beim Training großer Modelle.

Die Quellen der Trainingsdaten von DeepSeek werden leider nicht veröffentlicht, aber in der bereits erwähnten South China Morning Post wird die Vermutung geäußert, dass die chinesischen Trainingsquellen des Modells klassische Literatur, Internet-Slang, akademische Dokumente, Regierungsdokumente und regionale Dialekte umfassen.

Ich habe deepSeek gefragt, ob sein Sprachmodell mit Dokumenten in chinesischer Schrift trainiert wurde und erhielt zuerst eine sperrige Antwort, ich soll doch bitte in der Dokumentation nachsehen. Dann habe ich die Frage vereinfacht und eine lange Antwort - inklusive Reasoning in englicher Sprache - erhalten:

Frage: Wurdest du auch mit Texten in chinesicher Schrift trainiert?

Okay, let's see. The user is asking if I was trained with texts in Chinese script. I need to answer that.

First, I know that my training data includes a lot of publicly available text from books, websites, etc. But I should check if Chinese is included. Since Chinese is a major language, it's likely part of the dataset. But I should confirm.

Wait, the documentation says the training data is multilingual, including many languages. So Chinese would be included. But I need to mention that while I can process and generate Chinese text, there might be nuances or context I don't grasp as well as a native speaker.

Also, I should note that my primary training was in English, so other languages might not be as strong. Maybe mention the tokenization aspect? Chinese uses characters without spaces, which might affect how I process it compared to languages with spaces.

Oh, and I should clarify that I can handle both simplified and traditional characters, but there might be differences in usage between regions like Mainland China, Taiwan, Hong Kong, etc. But I need to be careful not to overstate my capabilities.

Also, add that if the user has specific questions or needs help with Chinese text, I can assist, but there might be limitations. Maybe provide an example or ask for clarification if needed.

Wait, the user's question is in German. Should I respond in German or switch to English? The original answer was in German. The user might prefer German, so I should keep the response in German. But the user might also be okay with English. Let me check the original answer again. The assistant's response is in German. So follow that.

Make sure the answer is clear, honest about capabilities, and offers help. Avoid technical jargon. Keep it conversational.

Ja, ich wurde auch mit Texten in chinesischer Schrift trainiert. Mein Training umfasst öffentlich verfügbare Texte in vielen Sprachen, einschließlich Chinesisch (sowohl vereinfachte als auch traditionelle Zeichen). Ich kann daher grundsätzlich chinesische Texte verarbeiten, übersetzen oder generieren. Allerdings gibt es Einschränkungen:

Kontext und Nuancen: Bei kulturellen Besonderheiten, Redewendungen oder sehr spezifischen Themen könnten meine Antworten weniger präzise sein als bei englischen Texten.

Schriftsystem: Da Chinesisch auf Zeichen basiert (keine alphabetische Schrift), kann die Tokenisierung komplexer sein, was gelegentlich zu unerwarteten Formatierungen führen könnte.

Regionale Unterschiede: Vereinfachte Zeichen (z. B. in China) vs. traditionelle Zeichen (z. B. in Taiwan) werden unterstützt, aber regionale Sprachvarianten könnten Herausforderungen darstellen.

Wenn du konkrete Fragen oder einen Text hast, kannst du ihn gerne teilen – ich versuche, bestmöglich zu helfen!

Sicher werden wir noch genauer herausfinden, was es mit der Konkurrenz aus Fernost auf sich hat. Auf jeden Fall belebt sie das Geschäft.

Karl Schmitz • Februar 2025