Aufmerksamkeit in Modellen wie Transformers ist ein zentraler Mechanismus, der es diesen Modellen ermöglicht, relevante Informationen aus einer großen Menge von Daten zu extrahieren und effektiv zu verarbeiten. Transformer-Modelle wurden erstmals in dem bahnbrechenden Paper “Attention is All You Need” von Vaswani et al. (2017) eingeführt, und seitdem haben sie sich als äußerst leistungsfähig in verschiedensten natürlichen Sprachverarbeitungsaufgaben erwiesen.
Das Schlüsselkonzept in Transformer-Modellen ist der “Self-Attention”-Mechanismus oder “Selbstaufmerksamkeit”, der es dem Modell erlaubt, die Bedeutung eines jeden Tokens (Wortes) in einem Satz in Bezug auf alle anderen Tokens zu beurteilen. Dies geschieht, indem jedem Token ein sogenannter “Attention Score” zugewiesen wird, der misst, wie wichtig andere Tokens sind, um den aktuellen Token zu interpretieren.
2. Lineare Transformationen: Jedes dieser Embeddings wird durch drei verschiedene lineare Transformationen geleitet, um die sogenannten Query (Q), Key (K) und Value (V) Vektoren zu erzeugen. – Query (Q): Repräsentiert, wonach wir suchen. – Key (K): Repräsentiert, was zur Verfügung steht. – Value (V): Repräsentiert den tatsächlichen Inhalt.
3. Attention Scores: Die Aufmerksamkeitsscores werden berechnet, indem der Query-Vektor jedes Tokens mit den Key-Vektoren aller anderen Tokens per Matrixmultiplikation verglichen werden. Die resultierenden Scores werden dann normalisiert, typischerweise durch Anwenden der Softmax-Funktion.
4. Gewichtete Summe der Werte: Die normierten Aufmerksamkeitswerte werden dann verwendet, um eine gewichtete Summe der Value-Vektoren zu erstellen. Dies gibt den neuen Repräsentationsvektor für jedes Wort, der die relevanten Informationen aus dem gesamten Satz integriert.
Beispiel BERT:
Stellen Sie sich einen Satz vor: “Die Katze sat auf der Matte.” Wenn BERT diesen Satz analysiert, wird jedes Wort (“Die”, “Katze”, “sat”, “auf”, “der”, “Matte”) in ein Embedding umgewandelt und durchläuft dann den Selbstaufmerksamkeitsprozess. Das Modell lernt, dass “Katze” und “Matte” wichtig sind, um “sat” zu verstehen, und gewichtet diese entsprechend höher als weniger relevante Wörter.
Diese Quellen bieten umfassende Einblicke in die Entwicklung und Funktionsweise der Transformer-Modelle und deren Aufmerksamkeit-Mechanismus.