AI는 왜 확률로 말하는가 — 언어학자가 보는 LLM 구조와 할루시네이션

Q: LLM이 할루시네이션을 일으키는 근본 이유는 무엇인가요?

LLM은 '사실인지 판단'하는 것이 아니라 '다음에 올 가능성이 높은 단어를 예측'하는 구조입니다. 확률적 생성 모델의 설계 목표가 사실 검증이 아닌 텍스트 생성에 있기 때문에, 할루시네이션은 기술적 버그가 아닌 구조적 특성입니다.

Q: 규칙 기반 AI와 LLM의 차이는 무엇인가요?

규칙 기반 AI는 언어 원칙을 직접 구현하며, 커버하지 못하는 입력에는 '처리 불가'로 응답합니다. LLM은 대규모 데이터에서 확률 패턴을 학습하며, 어떤 입력에도 항상 뭔가를 생성합니다. 그것이 사실인지는 보장하지 않습니다.

Q: ChatGPT, Claude, Gemini의 학습 방식은 어떻게 다른가요?

세 모델 모두 트랜스포머 기반 대규모 사전학습을 씁니다. 차이는 정렬(alignment) 방식입니다. OpenAI(GPT-5.x)는 RLHF와 추론 강화를 통합했고, Anthropic(Claude 4)는 Constitutional AI를 씁니다. Google(Gemini 2.5)은 멀티모달 학습과 MoE 아키텍처가 특징입니다.

ChatGPT가 없는 논문을 자신 있게 인용하는 이유는 구조 문제입니다. 언어학 배경으로 LLM이 왜 확률에 의존하는지, 그 한계가 어디서 비롯되는지, KAIST 예열 학습 연구까지 정리했습니다.

작성자: Jay (캐나다 공공기관 HRD/L&D 컨설턴트 · AI 트레이너 · 언어학 PhD 과정)
최초 작성: 2026년 5월 9일 | 최종 업데이트: 2026년 5월 10일
유형: 기술 분석 + 직접 경험 + 연구 해설
참고: Kuhl(1991) perceptual narrowing · Vaswani et al.(2017) "Attention is All You Need" · Anthropic Constitutional AI(2022) · KAIST 백세범 연구팀 Nature Machine Intelligence(2026.04)

ChatGPT가 왜 없는 논문을 자신 있게 인용하는지, 언어학을 공부한 사람 눈에는 조금 다르게 보입니다. LLM은 "다음에 올 가능성이 가장 높은 단어"를 예측하는 기계입니다. 사실을 아는 것이 아니라 패턴을 따르는 구조입니다. 이것은 언어학 내부에서 수십 년째 계속되고 있는 두 전통 중 하나를 AI가 선택한 결과이고, 그 선택이 오늘의 할루시네이션 문제를 만들었습니다.

언어학 과정에서 배운 문법 기반 모델부터 시작해서, 왜 AI가 확률에 의존하게 됐는지, 그리고 그 구조의 한계를 지금 어떻게 다루고 있는지를 정리합니다.

AI가 처음 언어를 배우던 방식 — 규칙의 시대

초기 자연어처리(NLP) 연구자들은 언어를 규칙으로 설명하려 했습니다. 노암 촘스키(Noam Chomsky)의 생성 문법 이론이 기반이었습니다. 언어에는 보편적인 구조 원칙이 있고, 그 원칙을 컴퓨터에 구현하면 언어를 처리할 수 있다는 논리였습니다.

실제로 쓰인 방식은 문맥 자유 문법(CFG, Context-Free Grammar)과 그 확장형인 확률적 CFG(PCFG)입니다. 문장을 트리 구조로 분해하고 각 구성 요소 사이의 관계를 규칙으로 정의합니다. 1980~90년대 NLP 시스템 대부분이 이 방식으로 작동했습니다.

이 접근 방식의 한계는 명확했습니다. "나는 어제 은행에 갔다"에서 '은행'이 금융 기관인지 강가인지, 규칙 시스템은 문맥 없이는 판단할 수 없습니다. 신조어, 관용어, 언어 간 구조 차이까지 규칙으로 커버하려 하면 시스템은 비대해지고, 현실 언어에서는 오히려 성능이 떨어졌습니다.

✍️ 규칙으로 언어를 잡으려는 시도 — 수업에서 직접 부딪힌 벽

대학원 컴퓨터 언어학 수업에서 파이널 프로젝트로 영어 연속동사구조(Serial Verb Construction)를 연구했습니다. "come see", "come buy"처럼 두 동사가 어떤 접속사나 to 없이 이어지는 구조를 말합니다.

제 핵심 질문은 하나였습니다. 이 구조는 문법 규칙으로 생성되는가(Syntax), 아니면 경험으로 저장되는가(Lexicon)? CHILDES 아동 언어 데이터베이스와 캐나다 영어 코퍼스 5천만 단어를 파이썬으로 분석하면서 찾은 답은 "둘 다, 그리고 그 사이 어딘가"였습니다. come, go, get처럼 고빈도 동사는 다양한 조합이 가능했지만, try, set은 거의 굳어진 표현으로만 나타났습니다. 규칙으로도, 단순 저장으로도 설명이 안 되는 연속체(continuum)였습니다.

그 결론이 NLP 역사에서 통계 접근이 규칙 접근을 밀어낸 이유와 같다는 걸, AI 트레이너로 일하면서 좀 더 깊이 이해하게 되었습니다.

언어학 내부의 두 전통 — AI는 어느 쪽을 선택했는가

중요한 것은, 언어학이 규칙에서 확률로 이동한 게 아니라는 점입니다. 두 전통은 처음부터 공존했고 지금도 그렇습니다.

형식·이론 언어학(촘스키 계열)은 지금도 원칙과 제약 기반입니다. 예전처럼 딱딱한 CFG 규칙이 아니라 범언어적 원칙(Merge, Agree)과 최적성 이론(Optimality Theory)처럼 순위가 있는 소프트 제약 체계로 발전했습니다. 문맥을 다루고 있고, 여전히 언어 능력(competence)의 보편성을 설명하려 합니다.

인지·사용 기반 언어학(심리학·연결주의 계열)은 언어가 규칙이 아닌 사용에서 창발한다고 봅니다. Bybee의 빈도 효과, Langacker의 인지 문법, 구문 문법(Construction Grammar)이 이 흐름입니다. 언어는 경험과 확률 패턴의 결과물이라는 관점입니다.

전통	핵심 관점	AI 적용
형식·이론 언어학	보편 원칙·제약 기반. 언어 능력은 규칙으로 설명 가능	초기 규칙 기반 NLP (CFG, 파서)
인지·사용 기반 언어학	빈도·경험·확률. 언어는 사용에서 창발	통계 NLP → 신경망 → LLM

NLP와 AI가 선택한 쪽은 두 번째입니다. 촘스키가 LLM을 공개적으로 비판하는 이유가 여기 있습니다. "언어를 설명하는 게 아니라 통계로 근사할 뿐"이라는 것입니다. 그 비판이 틀렸다고 말하기 어렵습니다. LLM은 언어가 '왜' 그렇게 작동하는지를 모릅니다. 그것이 어떤 패턴으로 자주 나타나는지만 압니다. 이 두 전통의 논쟁은 아직 끝나지 않았고, AI 연구에서도 마찬가지입니다.

LLM은 어떻게 작동하는가 — "다음 단어 예측기"의 구조

LLM(Large Language Model)의 작동 원리는 단순합니다. "지금까지 나온 단어들을 보고, 다음에 올 가능성이 가장 높은 단어를 예측한다." 이것이 전부입니다.

트랜스포머 아키텍처(Vaswani et al., 2017)는 이 예측을 위해 문장 전체의 단어 관계를 동시에 파악하는 자기 주의(self-attention) 메커니즘을 씁니다. 규칙 기반 시스템이 트리 구조로 해결하려 했던 문맥 문제를 확률 분포로 다룹니다.

현재 주요 LLM들의 학습 방식은 공통된 골격을 공유하면서 각자의 철학적 차이를 가집니다.

모델	개발사	공개된 학습 철학
GPT-5.x	OpenAI	대규모 사전학습 + RLHF + 추론 강화(Reasoning) 통합
Claude 4 (Opus/Sonnet)	Anthropic	Constitutional AI(RLAIF) + 추론 강화, 100만 토큰 컨텍스트
Gemini 2.5 Pro	Google	멀티모달 사전학습 + MoE 아키텍처, 100만 토큰 컨텍스트
Llama 4	Meta	MoE 아키텍처, 멀티모달, 200개 이상 언어, 오픈 웨이트
DeepSeek V3/R1	DeepSeek	저비용 고효율 훈련, R1은 추론 특화(Chain-of-thought)

※ 각 기업의 학습 데이터 구성과 세부 파라미터는 비공개입니다. 위 내용은 공개된 기술 보고서와 논문 기반입니다.

주요 차이는 사전학습 이후 정렬(alignment) 방식에 있습니다. OpenAI와 Meta는 인간 평가자 피드백(RLHF)을 주로 씁니다. Anthropic의 Constitutional AI는 모델이 정해진 원칙에 따라 스스로 출력을 비평하고 수정하는 구조입니다. 어떤 접근이든 핵심은 같습니다. "사실인가"를 판단하는 구조가 아니라 "그럴듯한가"를 극대화하는 구조입니다.

확률 기반 구조가 만드는 필연적 한계

LLM이 할루시네이션을 일으키는 이유는 외부에서 나쁜 데이터가 들어와서가 아닙니다. 구조 자체에서 비롯됩니다.

확률적 생성 모델은 두 가지를 동시에 할 수 없습니다. "그럴듯한 텍스트를 생성하는 것"과 "생성한 내용이 사실인지 확인하는 것"은 서로 다른 능력을 요구합니다. LLM은 전자에 최적화되어 있습니다.

여기에 과신(overconfidence)이 더해집니다. 불확실한 내용을 생성할 때 오히려 더 단정적인 언어를 사용하는 경향이 있습니다. 모델이 "그럴듯함을 극대화"하는 방향으로 학습됐기 때문에, 자신 있게 말하는 것이 더 그럴듯하게 읽힌다는 것을 학습한 셈입니다.

형식 언어학과 비교하면 차이가 선명합니다. 촘스키는 언어 능력(competence)과 언어 수행(performance)을 구분했습니다. 아는 것과 실제로 사용하는 것은 다르다는 것입니다. LLM에는 이 구분이 없습니다. 수행(텍스트 생성)이 곧 전부입니다. 무엇을 아는지와 무엇을 모르는지를 스스로 구분하는 내부 구조가 없습니다.

💡 참고: 규칙 기반 시스템은 커버하지 못하는 입력에 "처리 불가"로 응답했으나, 확률 기반 시스템은 어떤 입력에도 항상 뭔가를 생성합니다.

KAIST 연구가 찾아낸 것 — 과신의 시작점은 학습 이전이었다

2026년 4월, KAIST 백세범 석좌교수 연구팀이 Nature Machine Intelligence에 발표한 연구는 이 문제의 뿌리를 새로운 지점에서 찾았습니다.

딥러닝 모델은 학습을 시작할 때 가중치를 무작위로 초기화합니다. 연구팀이 주목한 것은 이 초기화 단계에서 이미 과신이 시작된다는 점입니다. 아무것도 학습하지 않은 상태에서 임의의 데이터를 입력해도 모델은 높은 확신도를 보였습니다. 학습이 이 과신 편향을 교정하는 것이 아니라, 오히려 그 위에 쌓이는 구조입니다.

해결책으로 제안된 것이 예열 학습(warm-up training)입니다. 실제 데이터를 학습하기 전, 의미 없는 무작위 노이즈로 신경망을 짧게 먼저 학습시킵니다. 이 과정을 거친 모델은 초기 확신도가 우연 수준으로 낮아지고, 처음 보는 데이터에 대해 "모른다"고 판단하는 능력이 향상됩니다.

언어 습득 연구의 유명한 발견이 여기서 떠오릅니다. 생후 6~10개월 영아는 세계 모든 언어의 음소를 구별합니다. 일본어를 쓰는 가정에서 태어난 아이도 이 시기에는 영어의 /r/과 /l/의 차이를 잡아냅니다. 그러나 10~12개월 무렵 아이들의 모국어 음운 체계가 고착되면서 이 보편적 감수성은 급격히 좁혀집니다. Patricia Kuhl이 확인한 지각적 좁혀짐(perceptual narrowing)입니다.

중요한 것은 이 과정의 출발점입니다. 영아는 과신에서 시작하지 않습니다. 어떤 것이 자기 언어인지 모르는 상태에서 진짜로 열려 있다가, 경험을 통해 건강하게 좁혀집니다. 무작위로 초기화된 신경망은 다릅니다. 아무것도 배우지 않은 상태에서도 높은 확신을 보입니다. 영아의 진짜 개방성이 아니라, 근거 없는 자신감입니다. KAIST 연구가 문제로 삼은 것이 정확히 이 지점입니다. 예열 학습은 신경망이 영아처럼 진짜 불확실한 상태에서 학습을 시작하게 하려는 시도입니다.

앞으로의 방향 — 확률과 불확실성은 공존할 수 있는가

확률 기반 LLM이 가진 한계는 구조적입니다. 완전히 없앨 수 없습니다. 하지만 지금 진행 중인 방향들은 그 한계를 관리하는 방식을 달리하고 있습니다.

불확실성을 명시적으로 표현하는 방향: Anthropic의 Constitutional AI는 모델이 자신의 출력을 원칙에 따라 스스로 검토합니다. "모른다"고 말하는 것 자체가 안전 원칙의 일부입니다. KAIST의 예열 학습은 이 방향을 학습 구조 자체에서 다룹니다.

외부 지식을 연결하는 방향: RAG(검색 증강 생성)는 모델이 답변 전 외부 문서를 실시간으로 참조하게 합니다. 확률적 생성의 한계를 검색으로 우회하는 방식입니다.

신경-상징 통합(Neuro-Symbolic AI): 확률 기반 신경망과 규칙 기반 논리 시스템을 결합하는 연구가 다시 주목받고 있습니다. 언어학의 두 전통이 AI 연구에서 다시 만나려는 시도입니다.

결국 이 기술적 변화와 관계없이 중요한 것은 하나입니다. 모델의 출력이 얼마나 정교해지든, 그것이 무엇을 아는지와 무엇을 모르는지를 판단하는 것은 여전히 사람의 몫입니다. 언어학이 수십 년 전에 씨름했던 질문들이 AI 연구의 최전선에 다시 등장하고 있습니다.

자주 묻는 질문

LLM이 할루시네이션을 일으키는 근본 이유는 무엇인가요?

LLM은 "사실인지 판단"하는 것이 아니라 "다음에 올 가능성이 높은 단어를 예측"하는 구조입니다. 확률적 생성 모델의 설계 목표가 사실 검증이 아닌 텍스트 생성에 있기 때문에, 할루시네이션은 기술적 버그가 아닌 구조적 특성입니다.

규칙 기반 AI와 LLM의 차이는 무엇인가요?

규칙 기반 AI는 언어 원칙을 직접 구현합니다. 커버하지 못하는 입력에는 "처리 불가"로 응답합니다. LLM은 대규모 데이터에서 확률 패턴을 학습하며, 어떤 입력에도 항상 뭔가를 생성합니다. 그것이 사실인지는 보장하지 않습니다.

ChatGPT, Claude, Gemini의 학습 방식은 어떻게 다른가요?

세 모델 모두 트랜스포머 기반 대규모 사전학습이라는 공통 골격을 씁니다. 차이는 정렬(alignment) 방식입니다. OpenAI(GPT-5.x)는 인간 피드백 강화학습(RLHF)과 추론 강화를 통합했고, Anthropic(Claude 4)는 원칙 기반 AI 자체 검토(Constitutional AI)를 씁니다. Google(Gemini 2.5)은 멀티모달 학습과 전문가 혼합(MoE) 아키텍처가 특징입니다.

KAIST 예열 학습 연구는 무엇인가요?

KAIST 백세범 교수팀이 2026년 4월 Nature Machine Intelligence에 발표한 연구입니다. 딥러닝 모델의 과신 원인이 학습 이후가 아닌, 무작위 가중치 초기화 단계부터 시작된다는 것을 밝혔습니다. 실제 학습 전 무작위 노이즈로 짧게 사전 학습하는 "예열" 방식으로 과신 편향을 크게 줄였습니다.

AI의 할루시네이션 문제는 앞으로 해결될 수 있나요?

완전 제거는 구조적으로 불가능합니다. 하지만 KAIST 예열 학습, RAG(검색 증강 생성), Constitutional AI처럼 불확실성을 관리하는 기술들이 발전하고 있습니다. "0%"가 아니라 "관리 가능한 수준으로 낮추고, 사람이 최종 판단하는 구조"가 현실적인 방향입니다.

Nature Machine Intelligence → EurekAlert 보도 → Attention is All You Need (arXiv) → Anthropic Constitutional AI →

AI 할루시네이션이란 무엇인가요? → AI 트레이너가 보는 좋은 프롬프트 조건 →

Smart Life Guide

AI는 왜 확률로 말하는가 — 언어학자가 보는 LLM 구조와 할루시네이션

AI가 처음 언어를 배우던 방식 — 규칙의 시대

언어학 내부의 두 전통 — AI는 어느 쪽을 선택했는가

LLM은 어떻게 작동하는가 — "다음 단어 예측기"의 구조

확률 기반 구조가 만드는 필연적 한계

KAIST 연구가 찾아낸 것 — 과신의 시작점은 학습 이전이었다

앞으로의 방향 — 확률과 불확실성은 공존할 수 있는가

자주 묻는 질문

LLM이 할루시네이션을 일으키는 근본 이유는 무엇인가요?

규칙 기반 AI와 LLM의 차이는 무엇인가요?

ChatGPT, Claude, Gemini의 학습 방식은 어떻게 다른가요?

KAIST 예열 학습 연구는 무엇인가요?

AI의 할루시네이션 문제는 앞으로 해결될 수 있나요?

회사 자료를 ChatGPT에 넣어도 될까? 실무자를 위한 7단계 체크리스트

개인 AI 계정과 회사 승인 AI 도구의 차이: 직장인이 먼저 확인할 것

AI가 만든 교육자료, 그대로 배포해도 될까? L&D 실무 검토 가이드

AI는 왜 확률로 말하는가 — 언어학자가 보는 LLM 구조와 할루시네이션

AI가 처음 언어를 배우던 방식 — 규칙의 시대

언어학 내부의 두 전통 — AI는 어느 쪽을 선택했는가

LLM은 어떻게 작동하는가 — "다음 단어 예측기"의 구조

확률 기반 구조가 만드는 필연적 한계

KAIST 연구가 찾아낸 것 — 과신의 시작점은 학습 이전이었다

앞으로의 방향 — 확률과 불확실성은 공존할 수 있는가

자주 묻는 질문

LLM이 할루시네이션을 일으키는 근본 이유는 무엇인가요?

규칙 기반 AI와 LLM의 차이는 무엇인가요?

ChatGPT, Claude, Gemini의 학습 방식은 어떻게 다른가요?

KAIST 예열 학습 연구는 무엇인가요?

AI의 할루시네이션 문제는 앞으로 해결될 수 있나요?

대화 참여하기