1. Transformer란?

Transformer는 2017년 Vaswani et al.이 발표한 모델로, 자연어 처리(NLP)에서 큰 혁신을 일으킨 구조다.
이 모델은 Recurrent 구조 없이도 전체 문맥을 동시에 고려할 수 있는 Self-Attention 메커니즘을 기반으로 하며, 이후 텍스트, 이미지, 오디오, 비디오 등 다양한 입력 데이터를 처리하는 데 확장되었다.

Transformer의 가장 큰 특징은 **입력을 시퀀스(연속된 토큰 벡터)**로 처리한다는 점이다.
텍스트는 단어 토큰의 시퀀스, 이미지는 패치(patch) 시퀀스, 비디오는 프레임 또는 비디오 패치 시퀀스로 변환해 입력할 수 있다.
이렇게 시퀀스 형태로 변환만 하면, Transformer는 모달리티에 관계없이 동일한 구조로 데이터를 처리할 수 있다.

🧠 Language 모델로 작동하는 방식

Transformer 구조를 기반으로:

  • 입력된 텍스트를 토큰화
  • 각 토큰의 의미를 벡터로 표현
  • self-attention을 통해 단어 간 관계 학습
  • 다음 단어 예측을 통해 언어 모델로 학습

2. Transformer가 다양한 입력을 동일한 구조로 처리할 수 있는 이유?

Transformer는 자기 자신을 포함한 시퀀스 내 모든 토큰 간의 관계를 attention을 통해 계산한다.
즉, 어떤 종류의 데이터든 이를 적절한 임베딩 시퀀스로 바꾸기만 하면 동일한 self-attention 구조로 학습하고 활용할 수 있다.

예시:

  • 텍스트: 단어 → 토큰 → 임베딩 → 시퀀스
  • 이미지: 2D 이미지 → 패치 나누기 → 패치 임베딩 → 시퀀스
  • 비디오: 프레임 순서 → 3D 패치 → 시퀀스

Transformer는 이처럼 모달리티를 추상화하여, 텍스트, 이미지, 영상 등 멀티모달 입력을 통합적으로 처리할 수 있는 매우 유연한 구조를 가지고 있다.


3. Autoregressive Transformer란?

Autoregressive Transformer는 Transformer 구조를 기반으로 하되, 출력을 순차적으로 생성하는 방식을 채택한 모델이다.

"이전까지의 입력만 보고, 다음 토큰 하나를 예측하는 방식"

예를 들어, 문장 생성에서
“The cat sat on the”가 주어졌다면, 모델은 다음 토큰 “mat”을 예측하는 식이다.

🔁 생성 흐름:

입력예측 결과
The cat
The cat sat
The cat sat on
The cat sat on the
The cat sat on the mat

⚠️ Causal Masking

Autoregressive Transformer는 **미래 토큰을 보지 못하게 막는 마스킹(causal mask)**을 적용한다.
이로써 모델은 항상 앞에서부터 순차적으로 정보를 보고, 정직하게 예측하도록 강제된다.


4. 왜 Autoregressive 방식이 필요한가?

Transformer는 원래 입력 전체를 동시에 볼 수 있는 구조지만,
무언가를 생성(generation)할 때는 미래 정보를 보지 않아야 하기 때문에 Autoregressive 구조를 선택한다.

생성과 이해의 차이:

Task방식예시 모델
이해 (understanding) 전체 입력을 보고 학습 (양방향) BERT
생성 (generation) 앞에서부터 순차적으로 예측 (단방향) GPT, DALL·E, VideoGPT
  • 생성은 순서가 중요한 task이기 때문에, 미래를 미리 보면 정답을 미리 알아버리는 "치팅"이 된다.
  • 따라서 문장, 이미지, 비디오 등의 생성 task에서는 Autoregressive 방식이 필수적이다.

5. Autoregressive Transformer의 구조

대부분 Decoder-only 구조를 사용하며, 다음과 같은 요소로 구성된다 (즉, Transformer에서 Decoder 부분만 사용)

  1. 입력 임베딩: 토큰을 벡터로 변환
  2. 포지셔널 인코딩: 토큰 순서 정보를 추가
  3. Masked Self-Attention: 이전 토큰들 간의 연관성만 계산
  4. Feedforward Layer: 문맥 기반 표현 추출
  5. Softmax 출력: 다음 토큰 확률 분포 예측

6. Autoregressive Transformer의 장단점

장점설명
문맥 기반 생성에 강함 자연스럽고 일관된 시퀀스 생성 가능
학습-생성 일치 학습 시와 생성 시의 흐름이 동일
범용 활용 가능 텍스트뿐 아니라 이미지, 오디오, 비디오 생성에도 적용 가능
단점설명
느린 생성 속도 토큰을 하나씩 생성해야 하므로 병렬화 어려움
오류 누적 앞에서 틀리면 뒤에 영향이 커짐 (오류 전파)
많은 데이터 필요 자연스러운 문맥 생성을 위해 대규모 학습 필요

7. 대표 모델 예시

모델설명
GPT 시리즈 텍스트 생성에 특화된 autoregressive Transformer
DALL·E 이미지 생성도 autoregressive 방식으로 진행
VideoGPT 비디오 프레임을 순서대로 생성하는 autoregressive 모델
PaLM / LLaMA / Mistral 대형 언어 모델로 대부분 autoregressive 구조 사용

🔚 결론

Transformer는 다양한 입력 모달리티를 동일한 구조로 처리할 수 있는 유연성과 강력한 표현력을 지닌 구조다.
이 구조를 기반으로 한 Autoregressive Transformer는 생성 task에 최적화된 방식으로, 자연스럽고 연속적인 출력 시퀀스를 만들어낸다.

즉, 이해는 양방향(BERT), 생성은 Autoregressive(GPT) — 목적에 따라 Transformer의 활용 방식이 달라지는 것이다.

'AI 배경지식' 카테고리의 다른 글

Receptive Field 설명 (CNN vs Transformer)  (0) 2022.09.20
벡터 사이의 거리, 각도 계산  (0) 2021.08.19
벡터와 행렬 기본 개념  (0) 2021.08.19

+ Recent posts

티스토리 친구하기