
cherdchai - stock.adobe.com
Redaktionserfahrung: Was KI für Journalisten leisten kann
KI-Modelle wie Google Gemma, Meta Llama oder DeepSeek lassen sich kostenfrei auf dem PC nutzen. Erfahren Sie, ob und wie nützlich dies wirklich für unsere Redakteure sein kann.
In den letzten Monaten hat das Redaktionsteam der französischen Schwesterpublikation von Computerweekly.de, LeMagIT, verschiedene Versionen mehrerer kostenlos herunterladbarer großer Sprachmodelle (LLMs) auf PCs getestet. Zu diesen LLMs gehören derzeit Googles Gemma 3, Metas Llama 3.3, Anthropics Claude 3.7 Sonnet, mehrere Versionen von Mistral (Mistral, Mistral Small 3.1, Mistral Nemo, Mixtral), IBMs Granite 3. 2, Alibaba's Qwen 2.5 und DeepSeek R1, und DeepSeek R1, das in erster Linie eine zusätzliche Reasoning-Schicht über den destillierten Versionen von Qwen oder Llama darstellt.
Das Testverfahren umfasst die Umwandlung (Transkribieren) von Interviews, die Journalisten während ihrer Recherchen aufgezeichnet haben, in veröffentlichungsfertige Artikel für LeMagIT. Im Folgenden werden die Erfahrungen des Teams geschildert:
Wir prüfen die technische Machbarkeit auf einem PC und die Qualität des Outputs mit den verfügbaren Ressourcen. Um es gleich vorwegzunehmen: Bisher konnte keine KI so arbeiten, wie wir es brauchen. Ziel dieses Experiments ist es, die tatsächlichen Fähigkeiten der KI an einem konkreten Praxisfall zu bewerten und verstehen.
Unser Testprotokoll besteht aus einer Eingabeaufforderung mit 1.500 Token (6.000 Zeichen oder zwei Magazinseiten), um der KI zu erklären, wie ein Artikel geschrieben wird, sowie durchschnittlich 11.000 Token für die Transkription eines etwa 45-minütigen Interviews. Eine solche Eingabeaufforderung ist in der Regel zu umfangreich, um in das freie Fenster einer Online-KI zu passen. Daher ist es sinnvoll, eine KI auf den eigenen Computer herunterzuladen, da die Verarbeitung unabhängig von der Größe kostenlos bleibt.
Das Protokoll wird über die Community-Software LM Studio gestartet, die die Online-Chatbot-Oberfläche auf dem PC nachahmt. LM Studio verfügt über eine Funktion zum direkten Herunterladen von LLMs. Alle LLMs, die kostenlos heruntergeladen werden können, sind auf der Website von Hugging Face verfügbar.
Welche technischen Einschränkungen gibt es?
Technisch gesehen hängt die Qualität des Ergebnisses von der Menge des von der KI verwendeten Memorys ab. Zum Zeitpunkt der Erstellung dieses Artikels wird das beste Ergebnis mit einem LLM von 27 Milliarden Parametern erzielt, die auf 8 Bits codiert sind (Gemma von Google, in der 27B Q8_0-Version ), einem Kontextfenster von 32.000 Token und einer Prompt-Länge von 15.000 Token, auf einem Mac mit SOC M1 Max und 64 GB RAM, wobei 48 GB zwischen den Prozessorkernen (Orchestrierung), den GPU-Kernen (Vektorbeschleunigung für die Suche nach Antworten) und den NPU-Kernen (Matrixbeschleunigung für das Verständnis der Eingabedaten) aufgeteilt werden.
In dieser Konfiguration beträgt die Verarbeitungsgeschwindigkeit 6,82 Token/Sekunde. Die einzige Möglichkeit, die Verarbeitung zu beschleunigen, ohne das Ergebnis zu beeinträchtigen, besteht darin, sich für einen SOC mit einer höheren GHz-Frequenz oder mit mehr Verarbeitungskernen zu entscheiden.
In dieser Konfiguration überschreiten LLMs mit mehr Parametern (32 Milliarden, 70 Milliarden) die Memory-Kapazität und werden entweder gar nicht geladen oder generieren abgeschnittene Ergebnisse (zum Beispiel einen einteiligen Artikel). Bei weniger Parametern wird weniger Memory benötigt, aber die Qualität des Textes nimmt drastisch ab, mit Wiederholungen und unklaren Informationen. Die Verwendung von Parametern, die auf weniger Bits (3, 4, 5 oder 6) codiert sind, beschleunigt die Verarbeitung erheblich, verringert aber auch die Qualität des Textes, mit Grammatikfehlern und sogar erfundenen Wörtern.
Schließlich hängt die Größe des Eingabeaufforderungsfensters in Token von der Größe der Daten ab, die der KI zur Verfügung gestellt werden sollen. Sie ist nicht verhandelbar. Wenn diese Größe den Arbeitsspeicher überlastet, sollten Sie sich für ein LLM mit weniger Parametern entscheiden, wodurch RAM-Speicher freigegeben wird, was jedoch zu Lasten der Qualität des Endergebnisses geht.
Welche Qualität ist zu erwarten?
Unsere Tests haben zu gut geschriebenen Artikeln geführt. Sie haben einen Blickwinkel, eine kohärente Chronologie mehrerer thematischer Abschnitte, Zitate an der richtigen Stelle, eine dynamische Überschrift und einen Schlusssatz.
Allerdings ist es uns nicht gelungen, einen veröffentlichungsfähigen Artikel zu erhalten. Unabhängig vom verwendeten LLM, einschließlich DeepSeek R1 und seiner angeblichen Denkfähigkeiten, ist die KI systematisch nicht in der Lage, die verschiedenen im Interview besprochenen Punkte richtig zu priorisieren. Sie verfehlt immer den Punkt und erzeugt oft schöne, aber uninteressante Artikel. Gelegentlich schreibt sie einen Laienartikel, um ihren Lesern mitzuteilen, dass das interviewte Unternehmen Konkurrenten hat.
LLMs sind nicht alle gleich, was den Wortschatz und den Schreibstil betrifft. Zum Zeitpunkt des Schreibens produziert Metas Llama dreimal schwerer lesbare Sätze, während Mistral und in geringerem Maße Gemma dazu neigen, wie Marketingagenturen zu schreiben, mit schmeichelhaften Adjektiven, aber ohne konkrete Informationen.
Überraschenderweise ist das LLM, die im Rahmen der Testkonfiguration am schönsten auf Französisch schreibt, das chinesische Modell Qwen. Anfangs war Mixtral 8x7B die kompetenteste LLM auf unserer Testplattform, die acht thematische LLMs (das x steht für LLM) mit jeweils nur 7 Milliarden Parametern mischt.
Die besten Optionen, um Qwen und Mixtral in die 48 GB unserer Testkonfiguration einzupassen, sind jedoch für Qwen eine Version mit nur 14 Milliarden Parametern und für Mixtral Parameter, die auf 3 Bits codiert sind. Ersteres schreibt unklare und uninteressante Informationen, selbst wenn es mit DeepSeek R1 kombiniert wird (DeepSeek R1 ist nur als destillierte Version eines anderen LLM, entweder Qwen oder Llama, verfügbar). Letztere ist mit Syntaxfehlern übersät.
Die Mixtral-Version mit 4-Bit-Parameterkodierung stellte einen interessanten Kompromiss dar, aber die jüngsten Entwicklungen in LM Studio mit einem größeren Memory-Bedarf verhindern, dass die KI ordnungsgemäß funktioniert. Mixtral 8x7B Q4_K_M liefert jetzt abgeschnittene Ergebnisse.
Eine interessante Alternative zu Mixtral ist der neue Mistral Small 3.1 mit 24 Milliarden auf 8 Bit codierten Parametern. Unsere Tests zeigen, dass seine Ausgabequalität der von Gemma 3 sehr nahekommt. Zudem ist er mit 8,65 Token pro Sekunde etwas schneller.
Welche Hardwareoptimierungen sind möglich?
Die optimale Hardware-Architektur für den Betrieb generativer KI auf einem PC nutzt einen gemeinsamen RAM-Zugriff für alle Recheneinheiten (Compute Core). In der Praxis bedeutet das den Einsatz eines System-on-Chip (SoC)-Prozessors, bei dem CPU-, GPU- und NPU-Kerne denselben physischen und logischen Zugriff auf den RAM haben, sodass die Daten für alle Schaltkreise an denselben Speicheradressen liegen.
Wenn dies nicht der Fall ist – das heißt, wenn der PC über eine externe GPU mit eigenem Memory verfügt oder wenn der Prozessor zwar ein SoC ist, der die CPU-, GPU- und NPU-Kerne integriert, aber jeder Zugriff auf einen dedizierten Teil im gemeinsamen RAM hat – benötigen die LLMs mehr Memory, um zu funktionieren. Dies liegt daran, dass in jedem dedizierten Teil der Schaltkreise die gleichen Daten repliziert werden müssen.
Es ist zwar möglich, ein LLM mit 27 Milliarden Parametern, die in 8 Bit codiert sind, auf einem Silicon M Mac mit 48 GB gemeinsam genutztem RAM auszuführen, aber wenn wir die gleichen Bewertungskriterien anwenden, müssten wir uns mit einem LLM mit 13 Milliarden Parametern auf einem PC begnügen, bei dem insgesamt 48 GB RAM auf 24 GB RAM für den Prozessor und 24 GB RAM für die Grafikkarte aufgeteilt werden.
Dies erklärt den anfänglichen Erfolg von Macs mit Silicon M-Prozessoren für die lokale Ausführung von LLMs, da dieser Chip ein SoC ist, bei dem alle Schaltkreise vom UMA-Zugriff (Unified Memory Architecture) profitieren. Anfang 2025 ahmte AMD diese Architektur in seiner Ryzen AI Max SoC-Reihe nach. Zum Zeitpunkt der Erstellung dieses Artikels verfügen die Core Ultra SoCs von Intel, die CPU, GPU und NPU kombinieren, nicht über einen solchen einheitlichen Memory-Zugriff.
Wie schreibt man eine gute Eingabeaufforderung (Prompt)?
Den Prompt zu schreiben, der erklärt, wie man eine bestimmte Art von Artikel schreibt, ist eine Ingenieursarbeit. Der Trick für einen guten Start besteht darin, der KI eine Arbeit vorzulegen, die bereits von einem Menschen erledigt wurde (in unserem Fall ein Abschlussartikel mit der Abschrift des Interviews), und sie zu fragen, welchen Prompt man ihr hätte vorlegen müssen, damit sie die gleiche Arbeit erledigt. Etwa fünf sehr unterschiedliche Beispiele reichen aus, um die wichtigsten Punkte des Prompts für eine bestimmte Art von Artikel zu bestimmen.
KI-Systeme produzieren jedoch systematisch zu kurze Prompts, die niemals ausreichen, um einen vollständigen Artikel zu schreiben. Die Aufgabe besteht also darin, die Hinweise, die sie uns geben, zu nutzen und sie mit all dem Fachwissen zu untermauern.
Zu beachten ist, dass die KI umso weniger genau versteht, worüber in bestimmten Sätzen gesprochen wird, je besser der Prompt in einem angenehm zu lesenden Stil verfasst ist. Um dies zu vermeiden, sollten Sie Pronomen wie er, dieser oder das weitestgehend vermeiden und das Thema jedes Mal wiederholen (der Artikel, der Artikel, der Artikel). Dadurch wird der Prompt für einen Menschen mühsamer zu lesen sein, für die KI jedoch an Effizienz gewinnen.
Um sicherzustellen, dass die KI über genügend Spielraum verfügt, um jedes Mal unterschiedliche Inhalte zu produzieren, muss man sich auf Trial and Error verlassen. Trotz unserer Bemühungen weisen alle Artikel, die nach unserem Testprotokoll erstellt wurden, eine gewisse Ähnlichkeit auf. Es wäre ein großer Aufwand, die gesamte Bandbreite menschlicher Kreativität in Form verschiedener konkurrierender Eingabeaufforderungen zusammenzufassen.
Der Nutzen von KI muss relativiert werden
Im Rahmen unseres Tests und im Kontext der KI-Fähigkeiten zum Zeitpunkt der Erstellung dieses Textes ist es illusorisch zu glauben, dass eine KI in der Lage wäre, den Grad der Relevanz aller während eines Interviews gemachten Kommentare selbst zu bestimmen. Der Versuch, sie dazu zu bringen, einen relevanten Artikel zu schreiben, erfordert daher notwendigerweise eine Vorstufe, bei der das Transkript des Interviews bereinigt wird.
In der Praxis bedeutet das, alle überflüssigen Elemente aus dem Interview-Transkript zu entfernen, ohne jedoch kontextrelevante Informationen zu löschen, die zwar nicht im finalen Artikel erscheinen, aber der KI helfen, bessere Ergebnisse zu liefern. Das Transkript muss also umgeschrieben werden – ein Aufwand, der Zeit kostet, die der KI zugutekommt, aber nicht direkt der journalistischen Arbeit.
Dies ist ein sehr wichtiger Punkt – ab diesem Punkt spart die KI dem Benutzer keine Zeit mehr. So wie es aussieht, bedeutet die Nutzung der KI eine Verlagerung der Arbeitszeit von einer bestehenden Aufgabe (Schreiben des ersten Entwurfs eines Artikels) zu einer neuen Aufgabe (Vorbereitung von Daten vor der Übermittlung an eine KI).
Zudem funktioniert die Beschreibung der Gliederung in 1.500 Token, die beim Schreiben eines Artikels zu befolgen ist, nur für eine bestimmte Art von Artikel. Mit anderen Worten: Man muss eine Gliederung für Artikel über ein Start-up schreiben, das eine Innovation vorschlägt, eine völlig andere Gliederung für Artikel über einen Lieferanten, der eine neue Version seines Produkts auf den Markt bringt, und eine weitere Gliederung für einen Akteur, der eine neue strategische Richtung vorgibt, und so weiter. Je mehr Anwendungsfälle es gibt, desto länger dauert die vorgelagerte Entwicklungsarbeit.
Darüber hinaus haben wir bisher im Rahmen unserer Experimente nur Artikel auf der Grundlage eines einzigen Interviews verfasst, in der Regel auf Pressekonferenzen, also in einem Kontext, in dem der Interviewte seine Kommentare bereits strukturiert hat, bevor er sie vorträgt. Mit anderen Worten: Nach mehr als sechs Monaten des Experimentierens befinden wir uns immer noch in der Anfangsphase. Wir konnten noch keine Zeit in komplexere Szenarien investieren, die zum Alltag der LeMagIT-Produktion gehören, angefangen bei Artikeln, die auf der Grundlage mehrerer Interviews verfasst werden.
Das Paradoxe daran ist: Damit KI einem Benutzer einen Teil seiner Arbeit abnehmen kann, muss dieser Benutzer mehr arbeiten. Andererseits ist KI auf einem PC in diesen Bereichen der bezahlten KI im Internet ebenbürtig.