AI 트레이너가 보는 좋은 프롬프트 조건

AI 트레이너로 일하며 직접 관찰한 좋은 프롬프트의 패턴을 정리했습니다. 역할 부여의 진짜 효과, 대화 중 품질이 떨어지는 이유, 새 창에서 같은 품질을 재현하기 어려운 이유, 한국어 사용자가 추가로 신경 써야 할 점까지 다룹니다.
작성자: Jay
작성일: 2026년 4월 30일
최종 업데이트: 2026년 4월 30일
유형: AI 트레이너 실무 경험 + 언어학 관점 정리
배경: Outlier / Invisible Technologies AI 트레이너, 언어학 박사수료, 캐나다 공공기관 AI 챔피언
참고: Anthropic·OpenAI 공식 프롬프트 가이드, Zheng et al.(2024) 페르소나 효과 연구

AI트레이너가 보는 좋은 프롬프트 조건

수천 개의 AI 응답에 점수를 매기다 보면 한 가지 패턴이 보입니다. 좋은 응답은 좋은 프롬프트에서 나옵니다. 당연한 말 같지만, 그 '좋은 프롬프트'의 정체는 흔히 알려진 것과 좀 다릅니다. "역할을 부여하라", "구체적으로 써라" 같은 조언은 절반은 맞고 절반은 과장되어 있습니다. 이 글에서는 AI 트레이너로 일하며 직접 본 패턴을 정리합니다.

AI 트레이너는 정확히 무슨 일을 하나

"AI 트레이너"라는 직군이 알려진 지 얼마 안 됐기 때문에, 평가 한 가지만 한다고 오해하시는 분이 많습니다. 실제로는 영역이 꽤 넓습니다.

핵심만 추리면 다섯 가지입니다.

  • 응답 평가: 같은 프롬프트에 대한 여러 응답을 비교해 어느 쪽이 더 나은지 등급을 매깁니다. 이른바 RLHF(인간 피드백 강화학습)의 인간 부분이 이 작업입니다.
  • 평가 기준 자체를 만드는 일: "좋은 답변"이 무엇인지 정의하는 가이드라인을 직접 작성합니다. 평가자가 평가만 하는 게 아니라, 무엇을 좋다고 볼지 기준을 짜는 일도 합니다.
  • 새 기능 검증: 모델에 새로 들어간 능력 — 도구 사용, 이미지 인식, 긴 문서 처리 등 — 이 가이드대로 작동하는지 확인합니다.
  • 레드티밍: 모델을 의도적으로 깨트리려 시도하는 일입니다. 우회 표현으로 유해한 응답을 끌어낼 수 있는지, 거절해야 할 요청을 거절하는지 등을 점검합니다. 자세한 방법은 NDA로 묶여 있어 공개할 수 없지만, 컨셉은 "공격자 관점에서 모델을 시험한다"입니다.
  • 뉘앙스·행간 평가: 사용자가 명시적으로 말하지 않은 의도(implicit intent)를 모델이 잘 읽었는지 확인합니다. 한국어처럼 주어를 생략하고 존댓말 위계가 있는 언어에서는 이 평가의 무게가 특히 큽니다.

해킹부터 답변까지, 한 줄 안 가르치는 곳이 없는 셈입니다. 이 일을 하면 자연스럽게 한 가지를 알게 됩니다. 응답 품질의 절반은 모델이 결정하지만, 나머지 절반은 프롬프트가 결정한다는 사실입니다.

좋은 프롬프트의 진짜 패턴 — 흔한 조언과 다른 5가지

"역할 부여하기, 구체적으로 쓰기, 예시 보여주기" 같은 조언은 어디에나 나옵니다. 그런데 트레이너 작업을 하면서 느낀 건, 이 조언들이 항상 맞는 건 아니라는 점입니다. 효과가 큰 게 있고, 거의 효과가 없는 게 있고, 오히려 역효과인 것도 있습니다. 다섯 가지로 추렸습니다.

1. 역할 부여는 정확도가 아니라 톤을 바꾼다

"당신은 10년차 회계사입니다"라고 시작하면 모델이 더 정확한 답을 줄까요? 결론부터 말하면, 계산이나 사실 정확도는 거의 그대로입니다. 2024년에 발표된 Zheng 외 연구에서도 페르소나 부여가 객관적 정확도(수학·논리·사실 확인)에는 유의미한 영향을 주지 못한다는 결과가 나왔습니다.

그럼에도 역할 부여가 효과 있는 영역은 분명히 있습니다.

  • 톤·문체·어휘 분포가 그 도메인에 맞게 좁혀집니다. "10년차 HR 컨설턴트 입장에서"라고 하면 인사 분야의 어휘와 문장 구조가 활성화됩니다.
  • 의료·법률처럼 모델이 일반론으로 회피하기 쉬운 주제에서 더 풍부한 답을 끌어낼 수 있습니다.
  • 응답 간 톤 편차가 줄어 일관성이 올라갑니다.

즉 역할 부여는 "정확도 부스터"가 아니라 "스타일·도메인 어휘 셋팅 도구"로 보는 게 정확합니다.

2. 모호함은 짧을 때만 용인된다

흥미로운 패턴이 있습니다. 짧고 모호한 질문("이메일 써줘")에는 모델이 가장 흔한 해석을 골라 그럭저럭 답합니다. 그런데 길고 모호한 프롬프트("이메일을 좀 잘 써줬으면 하는데, 어쩌면 톤도 좀 신경 써줘야 할 것 같고...")에는 오히려 모델이 헤맵니다. 길이가 늘어나면 모델은 그 안에서 우선순위를 찾으려 하기 때문입니다.

한 줄로 짧게 묻거나, 길게 쓸 거면 명확하게 쓰는 게 낫습니다. 어중간한 길이가 가장 나쁩니다.

3. 부정문보다 긍정문이 강하다

"딱딱하지 않게 써줘"보다 "친근한 톤으로 써줘"가 더 잘 먹힙니다. "어렵게 설명하지 마"보다 "초등학생도 이해할 수 있게"가 더 정확하게 작동합니다.

이유는 모델의 작동 방식과 관련 있습니다. LLM은 다음에 올 단어를 확률적으로 예측하는 모델인데, "딱딱하지 않게"라는 표현 안에는 "딱딱하게"라는 단어가 들어 있어 그 방향의 어휘가 활성화됩니다. 사람이 "분홍 코끼리를 떠올리지 마세요"라는 말을 들으면 분홍 코끼리부터 떠올리는 것과 비슷한 메커니즘입니다.

4. 예시 1개가 설명 10줄을 이긴다

이 부분이 트레이너 작업에서 가장 분명하게 체감되는 패턴입니다. 가이드라인을 글로 풀어 쓰는 것보다, 좋은 예시 한 개를 보여주는 게 모델 출력 품질을 훨씬 더 끌어올립니다. 이걸 프롬프트 엔지니어링 용어로는 "Few-shot prompting"이라고 부릅니다.

실전에서는 이렇게 씁니다.

"아래 형식으로 답변해줘.
예시:
- 항목: 클라우드 비용 절감
- 핵심: 미사용 인스턴스 자동 종료 정책 설정
- 효과: 월 예산의 12~18% 절감

이 형식으로 '재택근무 생산성 높이는 방법' 5가지 정리해줘."

이렇게 예시 한 개만 넣어도 출력 일관성이 눈에 띄게 올라갑니다.

5. 출력 형식 지정은 거의 항상 효과 있다

다섯 조건 중 가장 안정적으로 작동하는 게 이것입니다. "표로", "5개 항목으로", "각 항목 한 줄로", "JSON 형식으로" 같은 지시는 모델이 가장 잘하는 영역입니다. 트레이너로서 응답을 평가할 때도, 형식이 명확한 프롬프트의 응답이 거의 항상 더 높은 등급을 받았습니다.

다섯 가지 중 한 가지만 적용해야 한다면, 출력 형식 지정을 고르시면 됩니다.

"개떡같이 물어도 찰떡같이" — 모델은 이 방향으로 가고 있다

한 가지 솔직하게 말씀드리면, 지금까지 정리한 "프롬프트 잘 쓰는 법"은 사실 사라지고 있는 기술입니다.

제가 어느 AI 플랫폼 테스트에 참여한 적이 있었는데, 그 팀의 목표가 흥미로웠습니다. 사용자가 평소처럼 한 줄로 던져도 — 즉 "개떡같이 물어도" — 모델이 의도를 파악해 "찰떡같이" 답하도록 만드는 것이었습니다. 사용자에게 프롬프트 작성법을 가르치는 시대를 끝내겠다는 방향이었습니다.

이건 그 팀만의 방향이 아닙니다. 업계 전체가 이쪽으로 가고 있습니다. ChatGPT의 추론 모드, Claude의 extended thinking, 사용자 의도 추론을 강화하는 학습 기법들이 모두 같은 흐름에 있습니다. 트레이닝 단계에서 "짧고 모호한 입력에 좋은 응답을 내는 케이스"가 점점 더 많이 학습 데이터에 들어가고 있습니다.

현실적으로 생각해보면 이 방향이 맞습니다. 매번 인턴에게 지시하듯 프롬프트를 길게 쓰는 건 사람에게도 큰 부담입니다. 한 번에 모든 조건을 미리 떠올려 명시적으로 적는 것은 의외로 어려운 인지 작업입니다. 그래서 대부분 사용자는 짧게 묻고, 결과를 보고, 다시 다듬는 방식으로 일합니다.

그럼 지금 프롬프트를 잘 쓰려고 노력할 필요가 있을까요? 결론은 이렇습니다.

  • 현재 시점에서는 명시적으로 잘 쓴 프롬프트가 여전히 더 좋은 결과를 냅니다. 모델이 사용자 의도를 추론하는 능력은 빠르게 늘고 있지만, 아직 사람이 명시한 만큼 정확하지는 않습니다.
  • 다만 "프롬프트 엔지니어링"을 평생 익혀야 할 핵심 기술로 보지는 마시기 바랍니다. 1~2년 단위로 유효한 권장 사항이 바뀝니다.
  • 장기적으로 더 중요한 건 모델이 무엇을 잘하고 무엇을 못하는지 감각입니다. 이 감각은 모델이 바뀌어도 비슷하게 적용됩니다.

즉 프롬프트 작성법은 도구이고, 모델 감각이 본질입니다. 이 글의 다음 두 섹션은 그 감각에 가까운 이야기입니다.

대화하며 다듬다 보면 왜 품질이 떨어지는가

AI를 어느 정도 써보신 분이라면 한 번쯤 겪어보셨을 겁니다. 처음에는 만족스러운 답을 받았는데, 대화를 이어가며 "조금 더 짧게", "톤을 바꿔서", "이 부분만 다시" 식으로 다듬다 보면 어느 순간부터 응답 품질이 눈에 띄게 떨어지는 현상입니다. 저도 AI로 긴 작업을 하다가 이 문제를 정면으로 마주쳤습니다.

이 현상에는 이유가 있고, 연구자들이 부르는 이름도 있습니다.

원인 1. 어텐션 희석 (Attention Dilution)

LLM은 입력 전체를 한 번에 읽고 다음 단어를 예측합니다. 그런데 입력이 길어질수록 모델이 각 부분에 기울이는 "주의(attention)"가 분산됩니다. 대화가 5턴, 10턴 누적되면 초반에 명확하게 적었던 지시사항이 뒤로 밀리면서 모델 입장에서 점점 흐려집니다. 특히 긴 컨텍스트에서 중간 부분을 잘 못 보는 "Lost in the Middle" 현상은 여러 모델에서 보고되고 있습니다.

원인 2. 자기 조건화 (Self-conditioning)

모델은 자기가 이전 턴에 한 말을 "이미 합의된 사실"로 받아들이는 경향이 있습니다. 한 번 어긋난 방향으로 응답이 나오면, 그 다음 턴부터는 그 어긋난 응답을 전제로 답을 만들어냅니다. 사용자가 "다시 해줘"라고 해도 미묘하게 같은 방향으로 흐르는 이유가 이 때문입니다.

원인 3. 모순 누적

대화로 다듬는 과정에서 사용자도 자기 요청에 모순을 쌓아갑니다. "더 짧게" → "조금 더 자세히" → "다른 톤으로" → "다시 처음 톤으로". 모델 입장에서는 이 지시들이 모두 컨텍스트에 누적되어 있고, 어느 것을 우선해야 할지 점점 모호해집니다. 결국 평균적이고 미지근한 응답이 나오게 됩니다.

✍️ 긴 대화로 문서 작업을 하다가 마주친 일

긴 전자책 초안을 한 모델과 다듬던 중이었습니다. 처음 15분 정도는 만족스러웠습니다. 그런데 8턴쯤 지나자 모델이 제가 분명히 "삭제해달라"고 했던 표현을 다시 가져오기 시작했고, 톤도 점점 평이해졌습니다. 컨텍스트 윈도우가 크다는 모델이라 안심하고 대화를 끌고 갔는데, 오히려 그게 함정이었습니다.

결국 새 채팅창을 열고, 그 시점까지 합의된 결과물 + "이런 톤은 피해줘" 한 줄만 넣어 다시 시작했습니다. 그제야 원하던 품질이 돌아왔습니다. 이 경험은 특정 모델만의 문제가 아니라, 긴 대화 자체가 가진 구조적 한계에 가까웠습니다. 그 이후로 저는 5~6턴이 넘어가고 응답이 미묘해지면 무조건 새 창에서 압축본으로 다시 시작합니다.

실전 처방

경험적으로 정리하면 이렇습니다.

  • 5~6턴이 넘어가고 응답이 미묘해진다 싶으면 대화를 더 끌고 가지 마시기 바랍니다. 그 시점부터는 다듬을수록 더 나빠질 가능성이 큽니다.
  • 새 창을 열고 압축본을 만들어 다시 시작하시기 바랍니다. 압축본의 구성은 ① 지금까지 합의된 결과물 ② 최종 톤·형식 지시 ③ 피해야 할 점 한두 줄. 이렇게 3개입니다.
  • 대화 자체를 통째로 복사해 붙여넣지 마시기 바랍니다. 이건 다음 섹션에서 따로 다룹니다.

"긴 컨텍스트 윈도우 = 긴 대화에 유리"라고 생각하기 쉬운데, 실제로는 그 반대일 때가 많습니다. 컨텍스트가 크다는 것은 "더 많은 정보를 처리할 수 있다"는 뜻이지, "긴 대화의 품질을 보장한다"는 뜻이 아닙니다.

대화 저장해서 새 창에 붙이면 같은 품질이 나오나

앞 섹션의 자연스러운 후속 질문이 있습니다. "그럼 좋았던 대화를 통째로 저장해서 새 창에 붙여 넣으면, 거기서부터 같은 품질로 이어갈 수 있지 않을까?" 좋은 아이디어처럼 들리고, 인터넷에 이런 팁도 종종 돌아다닙니다.

저도 시도해봤습니다. 결론부터 말하면, 같은 품질은 거의 나오지 않습니다. 이유가 세 가지 있습니다.

이유 1. 대화와 텍스트는 모델 입장에서 다른 것이다

원래 대화에서는 모델이 매 턴마다 자기 응답을 직접 생성하면서 그 응답에 조건화됩니다. 자기가 만든 흐름 위에서 다음 답을 만드는 셈입니다.

그런데 대화 전체를 새 창에 붙여 넣으면 모델은 그것을 "남이 쓴 텍스트"로 읽습니다. 자기 저작이 아닌, 외부 자료를 참고하는 모드로 전환됩니다. 같은 글자라도 모델이 받아들이는 방식이 다릅니다. 이걸 비유하자면, 작가가 자기 초고를 이어 쓰는 것과 다른 사람의 원고를 받아 이어 쓰는 것의 차이와 비슷합니다.

이유 2. 세션 상태가 동일하지 않다

같은 모델, 같은 계정이라고 해서 세션 환경이 완전히 같은 것은 아닙니다.

  • ChatGPT의 Custom Instructions나 Memory 기능이 활성화되어 있으면 매 세션에 미묘하게 다른 컨텍스트가 따라붙습니다.
  • 플랫폼 측 시스템 프롬프트가 시기에 따라 갱신됩니다. 어제와 오늘의 동작이 다를 수 있습니다.
  • 주요 AI 서비스는 내부적으로 A/B 테스트를 돌립니다. 같은 모델명이지만 다른 변종으로 라우팅될 수 있습니다.

즉 "어제의 대화창"과 "오늘의 새 창"은 입력만 같을 뿐, 그 입력이 도착하는 환경이 다릅니다.

이유 3. 샘플링 무작위성

모델은 매 응답마다 확률적으로 다음 단어를 고릅니다. Temperature가 0이 아닌 한, 같은 입력이라도 매번 결과가 조금씩 달라지는 것이 정상입니다. "어제 그 답"이 머릿속에 강하게 남아 있을수록, 새 창에서 받은 비슷하지만 미묘하게 다른 답이 "품질이 떨어진 것"처럼 느껴집니다.

그럼 어떻게 해야 하나

완벽한 재현은 어렵지만, 비슷한 품질을 끌어내는 현실적인 방법은 있습니다.

  • 대화 통째로 붙이지 마시기 바랍니다. 모델이 외부 텍스트로 처리하는 모드가 되면서 오히려 품질이 떨어집니다.
  • 대신 "압축본"을 만들어 붙이시기 바랍니다. 구성은 세 부분입니다. ① 지금까지의 결과물(완성 또는 합의된 부분만) ② 톤·형식 지시 한 줄 ③ 피해야 할 점 한두 줄. 이게 통째 복사보다 거의 항상 더 잘 작동합니다.
  • 재현이 정말 중요하다면 API를 쓰는 게 맞습니다. Temperature를 0에 가깝게 설정하고, 시스템 프롬프트와 모델 버전을 명시하면 변동성을 최소화할 수 있습니다. 다만 이건 일반 사용자에게는 과한 방법이고, 개발자 시나리오에 가깝습니다.

도구로 일부 보완할 수 있는 부분도 있다

최근 주요 AI 서비스들은 이 문제를 의식해 시스템 지침을 고정하는 기능을 내놓고 있습니다. Claude의 Projects, ChatGPT의 GPTs, Gemini의 Gems가 대표적입니다. 매번 같은 페르소나와 형식 규칙을 반복 입력할 필요 없이, 도구 단위로 지침을 묶어둘 수 있습니다. 모델 입장에서 시스템 지침은 사용자 프롬프트보다 우선순위가 높게 처리되므로, 한 채팅창 안에서의 일관성은 분명히 올라갑니다.

다만 이 도구들이 앞서 설명한 어텐션 희석이나 자기 조건화 문제를 근본적으로 해결하는 건 아닙니다. 시스템 지침이 고정되어 있어도, 대화 자체가 길어지면 모델의 주의는 여전히 분산됩니다. 즉 도구는 "초기 지시사항이 흐려지는 문제"를 줄여주지만, "긴 대화 자체의 한계"는 그대로 남아 있습니다. 다음 글에서 세 모델의 메모리·컨텍스트 관리 기능을 직접 비교하며 어디까지 가능하고 어디부터는 안 되는지 정리할 예정입니다.

정리하자면, AI와의 좋은 작업은 "한 번 잘 나온 대화를 저장해서 재활용하는 자산"이라기보다, "매번 잘 정리한 입력으로 다시 만드는 흐름"에 가깝습니다. 이 인식 차이가 생각보다 큽니다.

한국어 사용자가 추가로 신경 써야 할 것

지금까지의 내용은 언어와 무관하게 적용됩니다. 다만 한국어로 AI를 쓸 때는 한 가지가 더 추가됩니다. 한국어는 영어보다 모델에게 까다로운 언어입니다.

이유는 두 가지입니다. 첫째, 한국어는 주어와 목적어를 자주 생략합니다. "어제 보낸 거 확인했어?"라는 문장에는 누가, 누구에게, 무엇을 보냈는지가 모두 빠져 있습니다. 사람은 맥락으로 자연스럽게 채우지만, 모델에게는 추론 부담이 큽니다. 언어학에서는 이를 화용 추론(pragmatic inference) 부담이라고 부릅니다. 둘째, 한국어 학습 데이터는 영어보다 양이 적기 때문에 톤·존댓말 처리의 일관성이 영어보다 약합니다.

실전에서는 이렇게 보완하시면 됩니다.

  • 주어와 대상을 명시하시기 바랍니다. "확인해줘"보다 "내가 작성한 이메일을 고객사 입장에서 검토해줘"가 훨씬 잘 작동합니다.
  • 존댓말 톤을 명시적으로 지시하시기 바랍니다. "정중하게"보다 "비즈니스 이메일에서 쓰는 격식 존댓말로"가 더 정확합니다. 모호한 형용사 대신 구체적인 상황을 언급하시면 됩니다.
  • 핵심 형식 키워드는 영어 병기를 고려해보시기 바랍니다. 출력 형식 지시는 영어로 짧게 덧붙이면 더 안정적입니다. 예: "표로 정리해줘 (output format: table, 5 rows)". 모델이 형식 지시 영역의 영어 표현에 더 강하게 학습되어 있기 때문입니다.
  • 모호한 한국어 형용사를 줄이시기 바랍니다. "자연스럽게", "적당히", "괜찮게" 같은 단어는 사람끼리는 통하지만 모델에게는 거의 정보가 없는 표현입니다. "전문 용어 3개 이하", "300자 이내" 같은 측정 가능한 지시로 바꾸시기 바랍니다.
  • 중요한 작업이라면 영어로 프롬프트를 쓰고 결과만 한국어로 받는 방법도 고려할 만합니다. 정확도가 중요한 작업, 예를 들어 코드 생성이나 복잡한 추론에서는 차이가 체감됩니다.

한국어로 AI를 쓰는 것 자체에 문제는 없습니다. 다만 영어 사용자에 비해 명시성을 한 단계 더 올려야 같은 품질을 받을 수 있다는 점을 염두에 두시면 됩니다.

작은 자가 점검

여기까지 읽으셨다면 프롬프트 작성에 대한 큰 그림은 잡히셨을 것입니다. 다음에 AI에게 무언가를 시키실 때, 짧게 세 가지만 확인해보시면 됩니다.

  • 한 번에 한 가지 작업만 시키고 있는가. 여러 요청을 묶지 않았는가.
  • 출력 형식을 한 줄이라도 지정했는가. (표, 항목 수, 길이 등)
  • 대화가 길어지고 응답이 미묘해질 때 새 창에서 압축본으로 다시 시작할 타이밍을 알고 있는가.

이 세 가지만 챙기시면, 거의 모든 일상적인 AI 사용 시나리오에서 평균 이상의 결과를 얻으실 수 있습니다. 나머지는 모델이 점점 알아서 잘하게 될 영역입니다.

이 글은 AI 트레이너로서의 실무 경험과 공개된 LLM 연구 자료를 바탕으로 정리한 것이며, 필자의 개인적인 관찰이 포함되어 있습니다. AI 모델은 버전 업데이트가 잦고, 같은 모델이라도 시점에 따라 동작이 달라질 수 있으므로, 중요한 작업은 본인 환경에서 직접 검증해보시는 것을 권장합니다.

자주 묻는 질문

역할 부여만 하면 답이 좋아진다는 게 사실입니까?
부분적으로만 사실입니다. "당신은 10년차 회계사입니다" 같은 역할 부여는 응답의 톤·어휘·문체를 그 도메인에 맞게 좁히는 효과가 있습니다. 다만 계산이나 사실 정확도 자체를 끌어올리지는 못합니다. 2024년 발표된 연구에서도 페르소나 부여가 객관적 정확도에는 유의미한 영향을 주지 못한다는 결과가 나왔습니다. 정확도가 중요한 작업이라면 역할 부여보다 출력 형식 지정이나 좋은 예시 1개를 보여주는 쪽이 더 효과적입니다.

긴 프롬프트가 항상 더 좋습니까?
아닙니다. 길이는 변수가 아니라 명확성이 변수입니다. 짧고 명확한 프롬프트가 길고 모호한 프롬프트보다 거의 항상 더 좋은 결과를 냅니다. 어중간하게 길면서 우선순위가 불분명한 프롬프트가 가장 나쁩니다. 길게 쓰실 거라면, 최소한 어떤 부분이 핵심이고 어떤 부분이 부수인지가 드러나도록 구조를 잡으시기 바랍니다.

ChatGPT와 Claude는 같은 프롬프트에 다르게 답합니까?
다르게 답합니다. 학습 데이터, 정렬(alignment) 방식, 시스템 프롬프트가 모두 다르기 때문입니다. 일반적으로 Claude는 긴 글 작성과 뉘앙스 처리에 강한 편이고, ChatGPT는 도구 연결과 멀티모달 작업에 강점이 있습니다. 다만 모델은 분기마다 업데이트되므로 절대적인 우열을 정해두기보다, 특정 작업에 어느 쪽이 더 잘 맞는지 직접 비교해보시는 게 가장 확실합니다.

한국어와 영어 중 어느 쪽으로 쓰는 게 유리합니까?
일상적인 작업이라면 한국어로 쓰셔도 충분합니다. 다만 정확도가 중요한 작업 — 예를 들어 코드 생성, 복잡한 논리 추론, 형식이 엄격한 출력 — 에서는 영어 프롬프트가 더 안정적인 경우가 많습니다. 학습 데이터의 양과 평가 데이터의 양 차이 때문입니다. 절충안으로, 핵심 지시는 한국어로 쓰되 출력 형식 지정 같은 메타 지시만 영어 키워드로 병기하는 방식도 효과적입니다.