← 홈으로

#4 프롬프트 반복 테스트로 품질 높이기lecture_script

코스: claude-autowork · 에이전트: producer

HOOK (45초)

프롬프트를 만들었는데 결과가 애매합니다. 다시 써봤는데 또 애매합니다. 세 번째도 마찬가지입니다.

이게 Claude가 나쁜 게 아닙니다. 개선 방향을 모른 채 감으로 수정하고 있기 때문입니다.

오늘 이 문제를 끝냅니다. 수정할 때마다 왜 나아졌는지, 왜 나빠졌는지를 데이터로 남기는 방법을 알려드립니다. 감이 아니라 기준으로 프롬프트를 다듬는 루틴, 지금 시작합니다.

PROMISE (30초)

이 차시가 끝나면, 동일한 업무에 대해 프롬프트를 v1부터 v3까지 정해진으로 수정하고, 각 버전의 개선 이유를 기록한 비교 로그를 직접 완성할 수 있습니다.

CORE (8–10분)

중요 개념 1 · 이터레이션 설계 — "요리 레시피 실험"

설명

이터레이션은 단순 반복이 아닙니다. '하나씩 바꾸고, 결과를 보고, 다음을 결정하는' 순서가 있는 실험입니다. 메모리 페그는 이겁니다. 요리사가 간을 보는 장면. 한 번에 소금과 설탕을 동시에 추가하면 무엇 때문에 맛이 달라졌는지 모릅니다. 프롬프트도 동일합니다.

예시

v1: "회의록을 요약해줘." v2: "회의록을 3줄로 요약해줘." → 분량 조건 하나만 추가했습니다. 결과 차이가 생기면 그 차이의 원인이 명확합니다.

반례

v1: "회의록을 요약해줘." v2: "전문가 톤으로, 3줄로, 결론 먼저, 영어로 요약해줘." → 결과가 달라졌지만 무엇이 효과를 냈는지 알 수 없습니다. 이건 이터레이션이 아니라 추측입니다.

정리

한 번에 하나의 변수만 바꿉니다. 변수를 기록해 둡니다. 그게 이터레이션 설계의 전부입니다.

중요 개념 2 · 출력 평가 기준 — "3개의 자"

설명

출력이 좋은지 나쁜지를 '느낌'으로 판단하면 기준이 매번 달라집니다. 메모리 페그는 목수의 자 3개입니다. 정확도, 형식, 사용도. 이 세 축으로 점수를 매깁니다.

정확도: 내용이 사실에 맞고 누락이 없는가
형식: 요청한 구조와 분량을 지켰는가
사용도: 실무에 바로 붙여 넣을 수 있는가

예시

회의록 요약 결과를 평가한다면, 정확도: 참석자 이름과 결정 사항이 빠지지 않았는가 형식: 3줄 이내인가 사용도: 팀장에게 그대로 전달할 수 있는가 각 항목을 1~3점으로 매깁니다.

반례

"왠지 이번 게 더 낫네요." 이 판단은 기록할 수 없고, 재현할 수 없습니다. 점수가 없으면 개선의 근거도 없습니다.

정리

출력을 볼 때마다 자 3개를 꺼냅니다. 정확도, 형식, 사용도. 숫자로 남겨야 비교가 됩니다.

중요 개념 3 · 프롬프트 버전 관리 — "코드의 커밋 로그"

설명

개발자는 코드를 바꿀 때마다 커밋 메시지를 남깁니다. "왜 바꿨는지"를 기록합니다. 메모리 페그는 Git 커밋 로그입니다. 프롬프트도 똑같이 버전을 관리합니다.

버전 로그에 들어갈 4가지입니다.

버전 번호 (v1, v2, v3)
수정한 내용 (한 줄 요약)
수정 이유 (무엇이 부족해서)
평가 점수 (자 3개 기준)

예시

버전	수정 내용	수정 이유	정확도	형식	사용도
v1	기본 요약 요청	초안	2	1	1
v2	분량 '3줄' 추가	너무 길었음	2	3	2
v3	역할 부여('팀장 보고용')	톤이 너무 캐주얼	3	3	3

반례

메모장에 프롬프트만 붙여 놓고 날짜도 이유도 없는 경우. 나중에 "예전 게 더 나았는데"라고 해도 돌아갈 방법이 없습니다.

정리

버전 번호, 수정 내용, 이유, 점수. 이 4칸짜리 표 하나가 프롬프트 자산이 됩니다.

EXERCISE (3–4분)

지금 영상을 일시정지하고 직접 만들어 보세요. 준비물은 스프레드시트 또는 노션 표 하나입니다.

Step 1 · 업무 하나를 선택합니다. 반복적으로 Claude에 맡기고 싶은 업무를 떠올립니다. 예: 주간 보고서 요약, 고객 이메일 초안, 회의록 정리.

Step 2 · v1 프롬프트를 작성합니다. 지금 떠오르는 그대로 씁니다. 잘 쓰려고 하지 마세요. 일부러 거칠게 써도 됩니다. Claude에 실행하고 결과를 복사해 둡니다.

Step 3 · 자 3개로 v1을 평가합니다. 정확도, 형식, 사용도 각 1~3점. 부족한 항목 하나를 골라 수정 이유를 한 줄 씁니다.

Step 4 · v2 프롬프트를 만듭니다. 수정 이유에 해당하는 변수 하나만 바꿉니다. 실행 후 점수를 다시 매깁니다.

Step 5 · v3까지 반복합니다. 같은 방식으로 한 번 더. 표를 완성하면 v1~v3 비교 로그가 생깁니다.

표 양식을 영상 설명란에 링크로 달아뒀습니다. 다운받아서 바로 쓰세요.

CTA (30초)

다음 차시 #5에서는 Claude에게 역할을 부여하는 방법을 다룹니다. 같은 프롬프트라도 역할 설정 하나로 출력 품질이 달라지는 이유, 직접 확인하게 됩니다.

오늘 만든 v1~v3 비교 로그를 댓글에 남겨 주세요. 어떤 업무에 적용했는지, 어떤 변수가 가장 통하는이었는지. 제 경험상 이 댓글 하나가 다음 실험의 아이디어가 됩니다.

예상 분량: 15분