Kể từ khi ChatGPT ra mắt vào cuối năm 2022, cái tên “Transformer” đã trở nên quen thuộc trong cộng đồng công nghệ. Nhưng đằng sau những câu trả lời thông minh và mượt mà đó là gì? Kiến trúc Transformer — được giới thiệu lần đầu trong bài báo nổi tiếng “Attention Is All You Need” năm 2017 — đã cách mạng hóa toàn bộ lĩnh vực xử lý ngôn ngữ tự nhiên. Bài viết này sẽ giải thích cơ chế hoạt động của Transformer theo cách dễ hiểu nhất, từ vấn đề của các mô hình cũ cho đến những khái niệm cốt lõi như self-attention và multi-head attention.
Vấn Đề Của Các Mô Hình Trước Transformer
Trước khi Transformer xuất hiện, các mạng nơ-ron hồi tiếp (RNN — Recurrent Neural Network) và biến thể LSTM (Long Short-Term Memory) là lựa chọn hàng đầu cho bài toán xử lý chuỗi văn bản. Tuy nhiên, chúng mang theo hai vấn đề nghiêm trọng.
Nút Thắt Cổ Chai Tuần Tự
RNN xử lý văn bản theo từng từ một, theo thứ tự từ trái sang phải. Điều này có nghĩa là từ thứ 100 trong câu phải đợi 99 từ trước đó được xử lý xong. Không thể song song hóa quá trình này, dẫn đến tốc độ huấn luyện cực kỳ chậm với các văn bản dài. Trong thời đại GPU có hàng nghìn nhân xử lý song song, đây là một lãng phí khổng lồ.
Vấn Đề Gradient Biến Mất
Khi văn bản dài hàng trăm từ, thông tin từ những từ đầu tiên “phai nhạt” dần khi truyền qua nhiều bước thời gian. Mô hình gần như “quên” ngữ cảnh từ đầu câu khi đến cuối câu. Dù LSTM cải thiện vấn đề này một phần, nhưng vẫn không triệt để giải quyết được khi văn bản quá dài.
Cơ Chế Self-Attention: Trái Tim Của Transformer
Transformer giải quyết cả hai vấn đề trên bằng một cơ chế hoàn toàn mới: self-attention (tự chú ý). Thay vì xử lý tuần tự, self-attention cho phép mô hình nhìn vào toàn bộ câu cùng một lúc và xác định từ nào “liên quan” đến từ nào.
Ba Thành Phần Cốt Lõi: Query, Key và Value
Hãy tưởng tượng bạn đang tìm kiếm thông tin trong thư viện. Query là câu hỏi bạn đặt ra (“Tôi cần sách về Python”). Key là tiêu đề trên gáy sách. Value là nội dung bên trong cuốn sách. Self-attention tính toán mức độ phù hợp giữa Query của một từ với Key của tất cả các từ khác, rồi lấy trung bình có trọng số của các Value tương ứng.
import numpy as np
def self_attention(Q, K, V):
# Q: Query matrix - "Tôi đang tìm gì?"
# K: Key matrix - "Tôi có thể cung cấp gì?"
# V: Value matrix - "Nội dung thực sự của tôi là gì?"
d_k = Q.shape[-1] # Chiều của vector key
# Tính điểm tương đồng giữa Query và tất cả Key
# Chia cho căn bậc hai của d_k để ổn định gradient
scores = np.matmul(Q, K.transpose(-2, -1)) / np.sqrt(d_k)
# Chuyển điểm thành xác suất (tổng = 1)
attention_weights = softmax(scores)
# Lấy trung bình có trọng số của các Value
output = np.matmul(attention_weights, V)
return output, attention_weights
def softmax(x):
e_x = np.exp(x - np.max(x, axis=-1, keepdims=True))
return e_x / e_x.sum(axis=-1, keepdims=True)
Ví dụ với câu “Con mèo ngồi trên tấm thảm vì nó mệt”: khi mô hình xử lý từ “nó”, self-attention sẽ tự động nhận ra rằng “nó” có mức độ liên quan cao với “con mèo” hơn là “tấm thảm”. Đây chính xác là điều mà con người cũng hiểu theo cách tự nhiên.
Multi-Head Attention: Nhìn Từ Nhiều Góc Độ
Chỉ một lớp self-attention thôi chưa đủ mạnh. Transformer sử dụng multi-head attention — tức là chạy nhiều “đầu” (head) attention song song, mỗi đầu học cách chú ý đến các mối quan hệ khác nhau trong văn bản.
Ví dụ, một head có thể học quan hệ cú pháp (chủ ngữ-vị ngữ), head khác học quan hệ ngữ nghĩa (đồng nghĩa, trái nghĩa), head thứ ba học quan hệ vị trí (từ gần nhau trong câu). Kết quả từ tất cả các head được ghép lại và chiếu qua một lớp tuyến tính, tạo ra biểu diễn phong phú hơn nhiều so với single-head attention.
Positional Encoding: Thêm Thông Tin Vị Trí
Vì self-attention xử lý tất cả các từ song song, mô hình không biết từ nào đứng trước từ nào. Đây là điểm yếu cần giải quyết — thứ tự từ trong câu mang rất nhiều ý nghĩa (“Con chó cắn người” khác hoàn toàn “Người cắn con chó”).
Giải pháp là positional encoding: thêm một vector mã hóa vị trí vào embedding của mỗi từ trước khi đưa vào attention. Bài báo gốc dùng hàm sin/cosine với các tần số khác nhau, cho phép mô hình suy luận về khoảng cách tương đối giữa các từ. Các mô hình hiện đại hơn (như RoPE trong LLaMA) dùng rotary positional encoding hiệu quả hơn.
Encoder vs Decoder: BERT và GPT Khác Nhau Như Thế Nào?
Kiến trúc Transformer gốc có hai phần: encoder và decoder. Tùy vào bài toán, các mô hình hiện đại chỉ dùng một phần hoặc cả hai.
Encoder-Only: BERT và Dòng Họ
BERT (Bidirectional Encoder Representations from Transformers) chỉ dùng phần encoder. Mỗi từ được chú ý đến tất cả các từ khác theo cả hai chiều — trái và phải. Điều này cho phép BERT hiểu ngữ cảnh sâu sắc hơn, phù hợp với các bài toán phân loại văn bản, nhận dạng thực thể (NER), trả lời câu hỏi.
Decoder-Only: GPT và Dòng Họ
GPT (Generative Pre-trained Transformer) chỉ dùng phần decoder với masked self-attention — mỗi từ chỉ được nhìn về phía trái, không được nhìn về phía phải. Điều này bắt buộc mô hình phải dự đoán từ tiếp theo dựa trên những gì đã thấy, phù hợp với bài toán sinh văn bản. ChatGPT, GPT-4, Claude, Gemini — tất cả đều thuộc dòng decoder-only.
Encoder-Decoder: T5, BART
Dùng cả hai phần, phù hợp với bài toán dịch máy, tóm tắt văn bản, nơi đầu vào và đầu ra có cấu trúc khác nhau.
Từ Transformer Đến Các LLM Năm 2026
Năm 2026, các mô hình ngôn ngữ lớn đã tiến một bước khổng lồ so với Transformer gốc năm 2017. Một số xu hướng đáng chú ý:
- Mixture of Experts (MoE): Thay vì kích hoạt toàn bộ mạng nơ-ron cho mỗi token, MoE chỉ kích hoạt một số “chuyên gia” (expert) phù hợp. GPT-4, Mixtral và nhiều mô hình hiện đại dùng kỹ thuật này để đạt hiệu quả cao hơn với chi phí tính toán thấp hơn.
- Context Window Cực Lớn: Transformer gốc gặp khó khăn với chuỗi dài do độ phức tạp O(n²) của attention. Các kỹ thuật mới như Flash Attention, Sliding Window Attention cho phép xử lý hàng triệu token trong một lần.
- Multimodal Transformers: Cùng một kiến trúc giờ xử lý được cả văn bản, hình ảnh, âm thanh và video, mở ra thế hệ AI đa phương thức.
- Efficient Fine-tuning (LoRA, QLoRA): Không cần huấn luyện lại toàn bộ mô hình. Chỉ cần thêm một số lượng nhỏ tham số có thể huấn luyện, tiết kiệm đến 99% bộ nhớ GPU.
Tại Sao Transformer Lại Thành Công Vượt Trội?
Câu trả lời nằm ở sự kết hợp hoàn hảo của nhiều yếu tố. Thứ nhất, tính song song hóa tốt: GPU hiện đại có thể tính toán tất cả các attention score cùng lúc, thay vì từng bước như RNN. Thứ hai, khả năng nắm bắt phụ thuộc tầm xa: dù từ thứ nhất và từ thứ 1000 trong văn bản, attention vẫn kết nối chúng trực tiếp. Thứ ba, tính mở rộng tuyệt vời: cứ tăng dữ liệu và tham số lên, mô hình lại tốt hơn — đây là điều hiếm thấy trong lịch sử học máy.
Transformer không chỉ là một kiến trúc mạng nơ-ron. Đó là nền tảng của một cuộc cách mạng. Từ AlphaFold dự đoán cấu trúc protein, đến DALL-E tạo hình ảnh, đến hàng chục trợ lý AI đang thay đổi cách chúng ta làm việc mỗi ngày — tất cả đều đứng trên vai của “Attention Is All You Need”. Hiểu Transformer là hiểu tương lai của trí tuệ nhân tạo.