In den letzten Monaten hat das Redaktionsteam der französischen Schwesterpublikation von Computerweekly.de, LeMagIT, verschiedene Versionen mehrerer kostenlos herunterladbarer großer Sprachmodelle (LLMs) auf PCs getestet. Zu diesen LLMs gehören derzeit Googles Gemma 3, Metas Llama 3.3, Anthropics Claude 3.7 Sonnet, mehrere Versionen von Mistral (Mistral, Mistral Small 3.1, Mistral Nemo, Mixtral), IBMs Granite 3. 2, Alibaba's Qwen 2.5 und DeepSeek R1, und DeepSeek R1, das in erster Linie eine zusätzliche Reasoning-Schicht über den destillierten Versionen von Qwen oder Llama darstellt.

Das Testverfahren umfasst die Umwandlung (Transkribieren) von Interviews, die Journalisten während ihrer Recherchen aufgezeichnet haben, in veröffentlichungsfertige Artikel für LeMagIT. Im Folgenden werden die Erfahrungen des Teams geschildert:

Wir prüfen die technische Machbarkeit auf einem PC und die Qualität des Outputs mit den verfügbaren Ressourcen. Um es gleich vorwegzunehmen: Bisher konnte keine KI so arbeiten, wie wir es brauchen. Ziel dieses Experiments ist es, die tatsächlichen Fähigkeiten der KI an einem konkreten Praxisfall zu bewerten und verstehen.

Unser Testprotokoll besteht aus einer Eingabeaufforderung mit 1.500 Token (6.000 Zeichen oder zwei Magazinseiten), um der KI zu erklären, wie ein Artikel geschrieben wird, sowie durchschnittlich 11.000 Token für die Transkription eines etwa 45-minütigen Interviews. Eine solche Eingabeaufforderung ist in der Regel zu umfangreich, um in das freie Fenster einer Online-KI zu passen. Daher ist es sinnvoll, eine KI auf den eigenen Computer herunterzuladen, da die Verarbeitung unabhängig von der Größe kostenlos bleibt.

Das Protokoll wird über die Community-Software LM Studio gestartet, die die Online-Chatbot-Oberfläche auf dem PC nachahmt. LM Studio verfügt über eine Funktion zum direkten Herunterladen von LLMs. Alle LLMs, die kostenlos heruntergeladen werden können, sind auf der Website von Hugging Face verfügbar.

Schließlich hängt die Größe des Eingabeaufforderungsfensters in Token von der Größe der Daten ab, die der KI zur Verfügung gestellt werden sollen. Sie ist nicht verhandelbar. Wenn diese Größe den Arbeitsspeicher überlastet, sollten Sie sich für ein LLM mit weniger Parametern entscheiden, wodurch RAM -Speicher freigegeben wird, was jedoch zu Lasten der Qualität des Endergebnisses geht.

LLMs sind nicht alle gleich, was den Wortschatz und den Schreibstil betrifft. Zum Zeitpunkt des Schreibens produziert Metas Llama dreimal schwerer lesbare Sätze, während Mistral und in geringerem Maße Gemma dazu neigen, wie Marketingagenturen zu schreiben, mit schmeichelhaften Adjektiven, aber ohne konkrete Informationen.

Eine interessante Alternative zu Mixtral ist der neue Mistral Small 3.1 mit 24 Milliarden auf 8 Bit codierten Parametern. Unsere Tests zeigen, dass seine Ausgabequalität der von Gemma 3 sehr nahekommt. Zudem ist er mit 8,65 Token pro Sekunde etwas schneller.

Die optimale Hardware-Architektur für den Betrieb generativer KI auf einem PC nutzt einen gemeinsamen RAM-Zugriff für alle Recheneinheiten (Compute Core). In der Praxis bedeutet das den Einsatz eines System-on-Chip (SoC)-Prozessors, bei dem CPU-, GPU- und NPU-Kerne denselben physischen und logischen Zugriff auf den RAM haben, sodass die Daten für alle Schaltkreise an denselben Speicheradressen liegen.

Um sicherzustellen, dass die KI über genügend Spielraum verfügt, um jedes Mal unterschiedliche Inhalte zu produzieren, muss man sich auf Trial and Error verlassen. Trotz unserer Bemühungen weisen alle Artikel, die nach unserem Testprotokoll erstellt wurden, eine gewisse Ähnlichkeit auf. Es wäre ein großer Aufwand, die gesamte Bandbreite menschlicher Kreativität in Form verschiedener konkurrierender Eingabeaufforderungen zusammenzufassen.

Zu beachten ist, dass die KI umso weniger genau versteht, worüber in bestimmten Sätzen gesprochen wird, je besser der Prompt in einem angenehm zu lesenden Stil verfasst ist. Um dies zu vermeiden, sollten Sie Pronomen wie er , dieser oder das weitestgehend vermeiden und das Thema jedes Mal wiederholen ( der Artikel , der Artikel , der Artikel ). Dadurch wird der Prompt für einen Menschen mühsamer zu lesen sein, für die KI jedoch an Effizienz gewinnen.

KI-Systeme produzieren jedoch systematisch zu kurze Prompts, die niemals ausreichen, um einen vollständigen Artikel zu schreiben. Die Aufgabe besteht also darin, die Hinweise, die sie uns geben, zu nutzen und sie mit all dem Fachwissen zu untermauern.

Der Nutzen von KI muss relativiert werden

Im Rahmen unseres Tests und im Kontext der KI-Fähigkeiten zum Zeitpunkt der Erstellung dieses Textes ist es illusorisch zu glauben, dass eine KI in der Lage wäre, den Grad der Relevanz aller während eines Interviews gemachten Kommentare selbst zu bestimmen. Der Versuch, sie dazu zu bringen, einen relevanten Artikel zu schreiben, erfordert daher notwendigerweise eine Vorstufe, bei der das Transkript des Interviews bereinigt wird.

In der Praxis bedeutet das, alle überflüssigen Elemente aus dem Interview-Transkript zu entfernen, ohne jedoch kontextrelevante Informationen zu löschen, die zwar nicht im finalen Artikel erscheinen, aber der KI helfen, bessere Ergebnisse zu liefern. Das Transkript muss also umgeschrieben werden – ein Aufwand, der Zeit kostet, die der KI zugutekommt, aber nicht direkt der journalistischen Arbeit.

Dies ist ein sehr wichtiger Punkt – ab diesem Punkt spart die KI dem Benutzer keine Zeit mehr. So wie es aussieht, bedeutet die Nutzung der KI eine Verlagerung der Arbeitszeit von einer bestehenden Aufgabe (Schreiben des ersten Entwurfs eines Artikels) zu einer neuen Aufgabe (Vorbereitung von Daten vor der Übermittlung an eine KI).

Zudem funktioniert die Beschreibung der Gliederung in 1.500 Token, die beim Schreiben eines Artikels zu befolgen ist, nur für eine bestimmte Art von Artikel. Mit anderen Worten: Man muss eine Gliederung für Artikel über ein Start-up schreiben, das eine Innovation vorschlägt, eine völlig andere Gliederung für Artikel über einen Lieferanten, der eine neue Version seines Produkts auf den Markt bringt, und eine weitere Gliederung für einen Akteur, der eine neue strategische Richtung vorgibt, und so weiter. Je mehr Anwendungsfälle es gibt, desto länger dauert die vorgelagerte Entwicklungsarbeit.

Darüber hinaus haben wir bisher im Rahmen unserer Experimente nur Artikel auf der Grundlage eines einzigen Interviews verfasst, in der Regel auf Pressekonferenzen, also in einem Kontext, in dem der Interviewte seine Kommentare bereits strukturiert hat, bevor er sie vorträgt. Mit anderen Worten: Nach mehr als sechs Monaten des Experimentierens befinden wir uns immer noch in der Anfangsphase. Wir konnten noch keine Zeit in komplexere Szenarien investieren, die zum Alltag der LeMagIT-Produktion gehören, angefangen bei Artikeln, die auf der Grundlage mehrerer Interviews verfasst werden.

Das Paradoxe daran ist: Damit KI einem Benutzer einen Teil seiner Arbeit abnehmen kann, muss dieser Benutzer mehr arbeiten. Andererseits ist KI auf einem PC in diesen Bereichen der bezahlten KI im Internet ebenbürtig.