
ipopba - stock.adobe.com
Die wichtigsten KI-Begriffe
Von Attention bis World Models: Dieses Glossar erklärt KI-Begriffe präzise und praxisnah – für Architektur, Entwicklung, Evaluierung und den sicheren Betrieb im Unternehmen.
KI-Projekte scheitern häufiger an unklarer Terminologie als an Hardwareproblemen. Dieses Glossar bündelt zentrale Begriffe zu den Themen Auswahl, Architektur, Evaluierung und Betrieb moderner KI-Systeme und fasst sie jeweils in einem Absatz zusammen.
Grundlagen
Deep Learning (DL): Teilgebiet des Machine Learning mit tiefen neuronalen Netzen, das besonders gut mit unstrukturierten Daten wie Text, Bild, Audio und Code zurechtkommt.
Künstliche Intelligenz (KI): Oberbegriff für Verfahren, die Aufgaben mit intelligentem Verhalten lösen. Künstliche Intelligenz umfasst symbolische Ansätze und datengetriebene Methoden.
Maschinelles Lernen (ML): Modelle lernen aus Daten Muster erkennen und treffen Vorhersagen oder Entscheidungen für neue Eingaben, anstatt explizit programmiert zu werden.
Neuronales Netz: Verbund aus Schichten künstlicher Neuronen, bei dem die lernbaren Parameter so optimiert werden, dass ein Verlust minimal wird.
Overfitting/Underfitting: Beim Overfitting werden die Trainingsdaten statt der Muster gelernt, beim Underfitting deutet dies auf eine zu geringe Modellkapazität hin. Gegenmittel sind mehr Daten, Regularisierung und eine valide Evaluation.
Parameter: Einstellbare Gewichtungen eines Modells. Mehr Parameter bedeuten oft eine höhere Kapazität und einen höheren Ressourcenbedarf, sind aber ohne passende Daten kein Qualitätsgarant.
Architekturen und Modelle
Attention/Self-Attention: Ein Mechanismus, der die Relevanz zwischen Token gewichtet und langreichweitige Bezüge ohne Rekurrenz ermöglicht.
Graph Neural Network (GNN): Modelle für Graphdaten mit Knoten und Kanten, die sich für Empfehlungen, Betrugserkennung und Wissensgraph-Inferenz eignen.
Hybrides Modell: Eine Kombination aus symbolischer KI und ML oder neuronalen Netzen. Sie sind nützlich für erklärbare und regelkonforme Systeme.
Kontextfenster: Maximale Anzahl von Ein- und Ausgabetokens pro Anfrage. Das limitiert die Dokumentlänge sowie die Chat-Historie und erhöht die Speicher- sowie die Latenzkosten.
LSTM/RNN: Rekursive Architekturen für Sequenzen, die historisch wichtig waren, heute jedoch vor allem in Nischen oder kleinen Modellen relevant sind.
Small Language Model (SLM): SLM sind kompakte, effiziente Sprachmodelle für On-Premises, Edge und kostensensible Inferenz, die von Destillation (englisch Distillation), Quantisierung und gutem Prompt-Design profitieren.
State Space Model (SSM): SSM sind eine Alternative zu Transformern für lange Sequenzen, da lineare Zustandsräume eine bessere Skalierung bei sehr langen Kontexten versprechen.
Transformer: Dominante Architektur für Sequenzen, bei der Selbstaufmerksamkeit Abhängigkeiten direkt modelliert und paralleles Training sowie große Kontexte ermöglicht.
Vision Transformer (ViT): Die Transformer-Architektur für Bilder. Ist der Standard in der Computer Vision.
Generative KI und LLM
Diffusion Model: Generative Modelle, die aus Rauschen schrittweise Bilder oder Audio rekonstruieren und den Standard der modernen Bildsynthese darstellen.
Few-Shot-/Zero-Shot-Learning: Few-Shot nutzt wenige Beispiele im Prompt zur Aufgabenanleitung, Zero-Shot kommt ohne Beispiele aus und setzt auf präzise Instruktionen.
Function Calling/Tool-Nutzung: Modelle rufen definierte Funktionen oder Tools strukturiert auf und integrieren deren Ergebnisse in die Antwort.
Generative KI: GenKI erzeugen neue Inhalte wie Text, Bild, Audio oder Code, anstatt nur zu klassifizieren.
Großes Sprachmodell (LLM): LLMs sind Transformer-basiert und auf großen Datenmengen zur Vorhersage des nächsten Tokens vortrainiert. Large-Language-Modelle beherrschen Zusammenfassen, Übersetzen, Frage-Antwort und Code.
Multimodale KI: Multimodale künstliche Intelligenz kombiniert mehrere Datenarten wie Text, Bild und Audio und verknüpfen Inhalte über Modalitäten hinweg.
Prompt: Eingabetext mit Aufgabe, Rolle, Beispielen und Formatvorgaben, wobei ein gutes Prompt-Design die Qualität und Robustheit steigert.
Prompt Engineering: Systematisches Strukturieren von Prompts, etwa Rollenhinweise, Schritt-für-Schritt-Anleitungen und Beispiele, um konsistente Ergebnisse zu erreichen.
Structured Output: Vorgabe von Ausgabeschemata wie JSON, um Ergebnisse verlässlich in Pipelines weiterzuverarbeiten.
Temperatur/Sampling: Reguliert die Zufälligkeit bei der Generierung, wobei eine höhere Temperatur die Varianz erhöht und den Determinismus senkt.
Token: Die kleinste Verarbeitungseinheit für Text, die meist aus Wortteilen oder häufigen Zeichenfolgen besteht, beeinflusst die Kosten, die Latenz und die Kontextgrenzen.
Reasoning und Agenten
Agent: Ein KI-Agent ist eine orchestrierte Einheit aus Zielen, Planung, Tool-Aufrufen und Gedächtnis, die Guardrails und Telemetrie benötigt.
Agentische KI: KI-Systeme, die komplexe, übergeordnete Ziele eigenständig verfolgen. Anstatt nur auf eine einzelne Aufforderung zu reagieren, plant agentische KI eine Vorgehensweise, zerlegt das Problem in Teilschritte, nutzt Werkzeuge (APIs, Code-Interpreter, Suchfunktionen) und entscheidet basierend auf Zwischenergebnissen über den nächsten Schritt. Dieser Prozess wiederholt sich, bis die Aufgabe erfüllt ist.
Chain of Thought (CoT): Explizite Anforderung schrittweiser Begründungen, was die Lösungsrate erhöht, aber auch Richtlinien für den Umgang mit Zwischenschritten verlangt.
Chain-of-Verification (CoVe): Eine spezielle Reasoning-Methode, bei der das Modell eine Antwort generiert, dann selbst Fragen zu potenziellen Fehlern in dieser Antwort stellt und sie daraufhin korrigiert. Sehr relevant für Reduzierung von Halluzinationen.
Multimodaler Agent: Agenten, die Text, Bild und Audio kombinieren. Sie sind relevant für Assistenz, Support und Inspektion in realen Umgebungen.
Plan and Execute: Trennung von Planer und Ausführern, was die Skalierbarkeit, Nachvollziehbarkeit und Fehlertoleranz verbessert.
ReAct: Iteration aus Denken, Handeln mit Tool und Beobachten, geeignet für Recherche, Wissensbasis-Navigation und Debugging.
Reasoning (Schlussfolgern): Zerlegung komplexer Aufgaben in überprüfbare Teilschritte. Reasoning ist wichtig für Logik, Datenanalyse und Code-Aufgaben.
Datenrepräsentation und Abruf
Context Compression: Reduziert den Kontext durch Zusammenfassung, Schlüsselsatz-Extraktion oder Deduplikation und senkt die Tokenkosten bei vertretbarem Informationsverlust.
Embedding: Dichte Vektorrepräsentation von Inhalten, bei der semantisch ähnliche Inhalte nah beieinander liegen. Dies ermöglicht Suche, Clustering und Klassifikation.
Knowledge Graph: Strukturierte Wissensbasis mit Entitäten und Kanten, die sich für Abfragen, Validierungen und faktenbasiertes Retrieval eignet.
Retrieval Augmented Generation (RAG): Ein RAG holt zu einer Anfrage relevante Belege und injiziert sie in den Prompt, wodurch Halluzinationen gesenkt und Antworten aktuell gehalten werden.
Reranking: Eine zweite Bewertungsstufe, die oft mit einem Cross Encoder oder einem LLM arbeitet und grob gefundene Passagen neu ordnet, um die Präzision der Belege zu steigern.
Vektordatenbank: Eine Vektordatenbank speichert Embeddings und unterstützt schnelle Ähnlichkeitssuche; Kernbaustein semantischer Suche und RAG.
Training, Optimierung und Laufzeit
Distillation: Ein großes Lehrermodell wird in ein kleineres Schülermodell komprimiert, wodurch sich Latenz und Kosten reduzieren, während die Qualität möglichst erhalten bleibt.
Federated Learning: Dezentrales Training über viele Endgeräte oder Standorte ohne Datenzentralisierung, wodurch sich die Datenschutzrisiken reduzieren und eine robuste Aggregation erforderlich wird.
Fine-Tuning/PEFT: Anpassung eines vortrainierten Modells an Domänen- oder Aufgabenwissen. Parameter-effiziente Verfahren wie LoRA ändern nur kleine Teile.
Gradient Checkpointing: Speichereffizienztechnik, die Zwischenergebnisse verwirft und bei Bedarf neu berechnet- Das ermöglicht größere Batches oder Modelle auf gleicher Hardware.
Inferenz: Ausführung eines trainierten Modells zur Beantwortung von Anfragen. Die Inferenz bestimmt Latenz, Durchsatz sowie Kosten und hängt stark von Kontextlänge und Batch-Größe ab.
KV-Caching: Eine entscheidende Inferenz-Optimierung. Schlüssel-Wert-Paare (KV) bereits verarbeiteter Tokens werden zwischengespeichert, um die Berechnung für nachfolgende Tokens massiv zu beschleunigen.
Reinforcement Learning (RL)/Bestärkendes Lernen: Reinforcement Learning ist ein Ein Machine-Learning-Verfahren, bei dem ein softwarebasierter Agent durch Interaktion mit einer Umgebung autonom eine optimale Strategie (Policy) erlernt. Der Agent erhält für seine Aktionen ein numerisches Belohnungssignal (Reward). Sein Ziel ist es, die Gesamtbelohnung über die Zeit zu maximieren.
Sparse Attention: Reduziert die Rechenkosten durch Fokussierung auf Teilmengen oder strukturierte Bereiche der Sequenz, was sich als vorteilhaft erweist für lange Kontexte.
Vortraining (Pre-Training): Initiales Training eines Modells auf einem sehr großen, unmarkierten Datensatz (zum Beispiel mit Texten aus dem Internet) mittels selbstüberwachter Lernaufgaben (ezwa Next-Token-Prediction). Ziel ist der Aufbau einer allgemeinen Wissensbasis (Sprache, Fakten, Syntax) als Grundlage für nachfolgende Feinabstimmung (Fine-Tuning) auf spezifische Aufgaben.
Evaluierung und Metriken
AUC-ROC: Die Fläche unter der ROC-Kurve. Sie bewertet die Trennleistung von Klassifikatoren über alle Entscheidungsschwellen hinweg (1.0 = perfekt, 0.5 = zufällig).
BLEU/ROUGE: Referenzbasierte Metriken für Übersetzung und Zusammenfassung, die n-Gramm-Überlappungen messen und nicht immer mit menschlicher Qualität korrelieren.
Fairness-Metriken: Quantifizieren Verzerrungen (Bias) gegenüber Personengruppen. Demographic Parity (gleiche Anteile) versus Equalized Odds (gleiche Fehlerraten). Oft im Zielkonflikt mit der Gesamtgenauigkeit.
GPQA (Graduate-Level Google-Proof Q&A): Ein anspruchsvoller Benchmark für tiefes, mehrstufiges Reasoning mit fachlich komplexen Fragen, die sich nicht durch eine einfache Websuche lösen lassen. Typischerweise wird die Genauigkeit gemessen, wodurch sich Begründungsqualität und Halluzinationskontrolle beurteilen lassen.
HELM (Holistic Evaluation of Language Models): Ein Rahmenwerk für eine ganzheitliche Bewertung von Modellen über viele Aufgaben und Dimensionen wie Genauigkeit, Robustheit, Fairness, Kalibrierung, Effizienz und Risiken. Es liefert vergleichbare, standardisierte Berichte und erleichtert Trade-off-Analysen.
MMLU (Massive Multitask Language Understanding): Ein breiter Multiple-Choice-Benchmark über zahlreiche Bereiche und Schwierigkeitsgrade zur Messung von Allgemeinwissen und Problemlösefähigkeit. Es ist ein etabliertes Vergleichsmaß, jedoch anfällig für Test-Kontamination und nicht deckungsgleich mit domänenspezifischer Performance.
Perplexity: Ein Maß für die Unsicherheit eines Sprachmodells. Niedrige Werte deuten auf eine bessere Modellierung des Korpus hin, sind aber nicht gleichbedeutend mit der Nutzbarkeit des Modells.
Qualität, Risiken und Governance
Halluzination: Plausible, aber falsche Aussagen. Gegenmittel sind RAG, strikte Prompts, evidenzbasiertes Scoring und Ablehnungsregeln.
Bias (Voreingenommenheit): Verzerrungen durch Daten oder Modellverhalten, die kuratierte Datensätze, Evaluierung und Monitoring erfordern.
Explainable AI (XAI): Methoden zur Nachvollziehbarkeit von Modellentscheidungen (zum Beispiel SHAP, LIME). Das ist wichtig für Vertrauen, Fehlerbehebung und Compliance.
Drift: Änderung der Datenverteilung über die Zeit. Dem wirken eine kontinuierliche Evaluierung, ein kontinuierliches Retraining und Guardrails entgegen.
Guardrails: Richtlinien und Laufzeitprüfungen für Eingaben/Ausgaben. Diese dienen der Risikoreduktion. Zu den Prüfungen gehören PII-Filter, Schema-Checks und Richtlinienkonformität.
Responsible AI/Governance: Prozesse für Transparenz, Nachvollziehbarkeit, Datenschutz, Lizenz- und Urheberrechtsfragen sowie regulatorische Compliance.
Verifiable Generation: Antworten werden durch externe Belege, Tests oder formale Checks validiert, was die Vertrauenswürdigkeit im Betrieb erhöht.
Hardware und Betrieb
CPU: Universelle Recheneinheit für Orchestrierung, Vor- und Nachverarbeitung sowie I/O. CPUs bieten jedoch meist zu wenig Parallelität für das Training großer Modelle.
FPGA: Field-Programmable Gate Arrays sind frei konfigurierbare Logik für latenzkritische oder spezialisierte Pipelines, jedoch ist die Entwicklung und Toolchain aufwendiger.
GPU: Graphics Processing Units sind massiv parallele Beschleuniger mit Tensor- oder Matrix-Einheiten, die von Mixed Precision profitieren und als Standard für Training und performante Inferenz gelten.
GPU-Virtualisierung: Techniken wie MIG (Multi-Instance GPU) und Prozess-Sharing, die eine physische GPU in mehrere, isolierte logische Einheiten aufteilen. Das ermöglicht bessere Auslastung und Mandantentrennung, zum Beispiel in virtuellen Maschinen oder Cloud-Umgebungen.
HBM/GDDR-VRAM: HBM (High Bandwidth Memory) bietet eine sehr hohe Speicherbandbreite bei begrenzter Kapazität, GDDR ist kapazitätsstärker, aber langsamer. Die Bandbreite ist oft der Engpass.
Interconnects: PCIe als Verbindung von Host zu Beschleuniger, NVLink oder NVSwitch für GPU zu GPU und InfiniBand oder RoCE für Cluster. Die Bandbreite und Latenz bestimmen die Skalierung.
MLOps: Praktiken und Werkzeuge für den ML-Lebenszyklus, etwa Datenpipelines, Versionierung, CI/CD, Bereitstellung, Monitoring und Retraining, mit Fokus auf Reproduzierbarkeit und Betriebssicherheit.
NPU (Neural Processing Unit)/AI-Beschleuniger: Neural Processing Units sind spezialisierte Prozessoren, die ausschließlich für die beschleunigte Ausführung von KI-Workloads (Inferenz, seltener Training) optimiert ist.
Parallelismus/Sharding: Daten-, Tensor- und Pipeline-Parallelismus sowie ZeRO oder FSDP verteilen das Modell, die Gradienten und die Zustände des Optimizers über viele Geräte.
TPU: Eine Tensor Processing Unit ist von Google entwickelter ein ASIC für KI-Berechnungen. Optimiert für maximale Effizienz beim Training großer Modelle und dem Bereitstellen (Serving) von Vorhersagen in der Google Cloud.
Edge- und Embedded-KI
Model Pruning (Edge): Entfernt unwichtige Gewichte oder Strukturen, um Modelle für Edge-Geräte zu verkleinern und ergänzt Quantisierung sowie distillierte SLMs.
ONNX Runtime: Plattformübergreifende Laufzeit für Modelle im ONNX-Format. Ermöglicht portables Serving von Edge bis Rechenzentrum.
TinyML: ML auf Mikrocontrollern und sehr leichten SoCs. TinyML setzt auf Quantisierung, Pruning und spezialisierte Laufzeiten für minimale Energie und Latenz.
Compliance und Risikomanagement
Adversarial Attacks: Gezielte Manipulation von Eingaben, um Modelle zu irrezuführen. Gegenmaßnahmen sind Robustheitstraining, Detektion und Eingangsfilter.
AI Governance: Rahmenwerke und Prozesse für verantwortlichen KI-Einsatz, etwa Policies, Datenschutzfolgenabschätzung und Konformität mit gesetzlichen Vorgaben.
Copyright: Heiß diskutiertes Thema rund um Trainingsdaten. Begriffe wie Opt-Out/-In für Datennutzung, Fair Use und Lizenzierung von Trainingsdaten (zum Beispiel von Stockfoto-Agenturen) sind kritisch.
Data Provenance/Lineage: Nachverfolgung, woher Trainingsdaten stammen und welche Transformationen sie durchlaufen haben. Wird für Compliance (EU AI Act) und Audits immer wichtiger.
EU AI Act (KI-VO): Der EU AI Act (EU KI-Verordnung) ist der erste umfassende Rechtsrahmen für KI. Stuft Systeme nach Risiko ein und hat massive Auswirkungen auf Entwicklung und Bereitstellung.
NIST AI RMF (AI Risk Management Framework): Wichtiges US-Framework für Risikomanagement, das international beachtet wird.
Model Cards: Standardisierte Dokumentation zu Zweck, Trainingsdaten, Metriken, Grenzen und Risiken eines Modells, die Audits und Verantwortlichkeit unterstützt.
Neue Paradigmen
LLM OS: Ein Konzept, bei dem Sprachmodelle als Plattform oder Steuerungsschicht wirken, inklusive Planung, Tools, Speicher und Rechtemodell.
World Models: Agenten nutzen interne Umgebungsmodelle zur Planung und Vorausschau. Dies ist insbesondere für Robotik, Simulation und langfristige Strategien relevant.
Skalierung und Effizienz
Mixture of Experts (MoE): Aktiviert pro Token nur wenige Experten-Subnetze, liefert eine hohe Kapazität bei vergleichbaren FLOPs und erfordert ein gutes Routing sowie Balancing-Monitoring.
Pruning: Entfernt wenig beitragende Gewichte oder Strukturen. Strukturiertes Pruning bringt eine reale Beschleunigung, unstrukturiertes Pruning benötigt spezialisierte Sparse-Kernels.
Quantisierung: Reduziert die numerische Präzision (zum Beispiel FP16, BF16, FP8 oder INT8), um Speicher- und Latenzkosten zu senken. Die Qualität sollte mit Zielmetriken geprüft werden.