Transformers sind eine Klasse von Deep Learning-Modellen, die in der natürlichen Sprachverarbeitung (NLP) eine wichtige Rolle spielen. Sie wurden erstmals im bahnbrechenden Paper “Attention is All You Need” von Vaswani et al. (2017) vorgestellt und basieren auf Mechanismen der Selbstaufmerksamkeit (Self-Attention) und vollverbundenen Schichten (Fully-Connected Layers). Der Transformer-Architektur liegt die Fähigkeit zugrunde, verschiedene Aspekte der Eingaben zu kodieren und zu dekodieren, um Bedeutungen zu erfassen und zu generieren.
Kodierungsmechanismus:
Der Encoder eines Transformers besteht aus mehreren identischen Schichten. Jede dieser Schichten enthält zwei Hauptkomponenten:
1. Multi-Head Self-Attention Mechanism: Dieser Mechanismus lässt das Modell für jedes Wort in einem Satz alle anderen Wörter im Satz betrachten. Dies wird erreicht, indem mehrere “Aufmerksamkeitsköpfe” verwendet werden, die die Input-Daten aus verschiedenen Perspektiven betrachten können. Dieser Mechanismus ermöglicht es dem Modell, kontextuelle Beziehungen zwischen den Wörtern zu verstehen.
Ein Beispiel hierfür wäre das Wort „Bank“ in dem Satz „Ich sitze auf der Bank und lese ein Buch“. Der Kontext hilft dabei, zu bestimmen, ob “Bank” hier ein Möbelstück oder ein Finanzinstitut bedeutet.
2. Feedforward Neural Network: Nach der Selbstaufmerksamkeit folgt eine vollverbundene Schicht, die auf jedes Token unabhängig angewendet wird. Eine normale Feedforward-Netzwerk-Schicht besteht aus zwei linearen Transformationen, die durch eine nichtlineare Aktivierungsfunktion wie ReLU getrennt sind.
Zusätzlich zu diesen beiden Hauptkomponenten gibt es auch Residual Connections und Layer Normalization, die helfen, den Gradientenfluss zu verbessern und den Trainingsprozess zu stabilisieren. Damit kann jeder Encoder die tieferen semantischen Informationen erfassen.
Dekodierungsmechanismus:
Der Decoder eines Transformers ist ähnlich aufgebaut wie der Encoder, besteht jedoch aus zusätzlichen Komponenten:
1. Masked Multi-Head Self-Attention Mechanism: Dieser funktioniert ähnlich wie der Self-Attention Mechanismus im Encoder, mit dem Unterschied, dass er „maskiert“ ist. Das bedeutet, dass das Modell zukünftige Positionen nicht sehen kann, was wichtig ist, um eine autoregressive Eigenschaft zu erhalten, somit Vorhersagen nur auf vorherige Wörter in einer Sequenz beruhen.
2. Encoder-Decoder Attention: Diese Komponente erlaubt es dem Decoder, relevante Informationen aus den Encoder-Ausgaben zu extrahieren. Es wird eine weitere Multi-Head Attention-Schicht verwendet, die die Ausgabe des Encoders als „key“ und „value“ und die Ausgabe des vorhergehenden Decoder-Schritts als „query“ verwendet.
Diese Mechanismen machen Transformer-Modelle sehr leistungsfähig für Aufgaben wie maschinelles Übersetzen, Textgenerierung und Fragebeantwortung. Ein bekanntes Beispiel für die Anwendung dieser Architekturen sind Modelle wie BERT (Bidirectional Encoder Representations from Transformers) und GPT (Generative Pre-trained Transformer), die in vielen NLP-Aufgaben Spitzenleistungen erzielen.
Quellen:
1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
2. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805.
3. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training. OpenAI.