#4 프롬프트 반복 테스트로 품질 높이기lecture_script
코스: claude-autowork · 에이전트: producer
HOOK (45초)
프롬프트를 만들었는데 결과가 애매합니다. 다시 써봤는데 또 애매합니다. 세 번째도 마찬가지입니다.
이게 Claude가 나쁜 게 아닙니다. 개선 방향을 모른 채 감으로 수정하고 있기 때문입니다.
오늘 이 문제를 끝냅니다. 수정할 때마다 왜 나아졌는지, 왜 나빠졌는지를 데이터로 남기는 방법을 알려드립니다. 감이 아니라 기준으로 프롬프트를 다듬는 루틴, 지금 시작합니다.
PROMISE (30초)
이 차시가 끝나면, 동일한 업무에 대해 프롬프트를 v1부터 v3까지 정해진으로 수정하고, 각 버전의 개선 이유를 기록한 비교 로그를 직접 완성할 수 있습니다.
CORE (8–10분)
중요 개념 1 · 이터레이션 설계 — "요리 레시피 실험"
설명
이터레이션은 단순 반복이 아닙니다. '하나씩 바꾸고, 결과를 보고, 다음을 결정하는' 순서가 있는 실험입니다. 메모리 페그는 이겁니다. 요리사가 간을 보는 장면. 한 번에 소금과 설탕을 동시에 추가하면 무엇 때문에 맛이 달라졌는지 모릅니다. 프롬프트도 동일합니다.
예시
v1: "회의록을 요약해줘." v2: "회의록을 3줄로 요약해줘." → 분량 조건 하나만 추가했습니다. 결과 차이가 생기면 그 차이의 원인이 명확합니다.
반례
v1: "회의록을 요약해줘." v2: "전문가 톤으로, 3줄로, 결론 먼저, 영어로 요약해줘." → 결과가 달라졌지만 무엇이 효과를 냈는지 알 수 없습니다. 이건 이터레이션이 아니라 추측입니다.
정리
한 번에 하나의 변수만 바꿉니다. 변수를 기록해 둡니다. 그게 이터레이션 설계의 전부입니다.
중요 개념 2 · 출력 평가 기준 — "3개의 자"
설명
출력이 좋은지 나쁜지를 '느낌'으로 판단하면 기준이 매번 달라집니다. 메모리 페그는 목수의 자 3개입니다. 정확도, 형식, 사용도. 이 세 축으로 점수를 매깁니다.
- 정확도: 내용이 사실에 맞고 누락이 없는가
- 형식: 요청한 구조와 분량을 지켰는가
- 사용도: 실무에 바로 붙여 넣을 수 있는가
예시
회의록 요약 결과를 평가한다면, 정확도: 참석자 이름과 결정 사항이 빠지지 않았는가 형식: 3줄 이내인가 사용도: 팀장에게 그대로 전달할 수 있는가 각 항목을 1~3점으로 매깁니다.
반례
"왠지 이번 게 더 낫네요." 이 판단은 기록할 수 없고, 재현할 수 없습니다. 점수가 없으면 개선의 근거도 없습니다.
정리
출력을 볼 때마다 자 3개를 꺼냅니다. 정확도, 형식, 사용도. 숫자로 남겨야 비교가 됩니다.
중요 개념 3 · 프롬프트 버전 관리 — "코드의 커밋 로그"
설명
개발자는 코드를 바꿀 때마다 커밋 메시지를 남깁니다. "왜 바꿨는지"를 기록합니다. 메모리 페그는 Git 커밋 로그입니다. 프롬프트도 똑같이 버전을 관리합니다.
버전 로그에 들어갈 4가지입니다.
- 버전 번호 (v1, v2, v3)
- 수정한 내용 (한 줄 요약)
- 수정 이유 (무엇이 부족해서)
- 평가 점수 (자 3개 기준)
예시
| 버전 | 수정 내용 | 수정 이유 | 정확도 | 형식 | 사용도 |
|---|---|---|---|---|---|
| v1 | 기본 요약 요청 | 초안 | 2 | 1 | 1 |
| v2 | 분량 '3줄' 추가 | 너무 길었음 | 2 | 3 | 2 |
| v3 | 역할 부여('팀장 보고용') | 톤이 너무 캐주얼 | 3 | 3 | 3 |
반례
메모장에 프롬프트만 붙여 놓고 날짜도 이유도 없는 경우. 나중에 "예전 게 더 나았는데"라고 해도 돌아갈 방법이 없습니다.
정리
버전 번호, 수정 내용, 이유, 점수. 이 4칸짜리 표 하나가 프롬프트 자산이 됩니다.
EXERCISE (3–4분)
지금 영상을 일시정지하고 직접 만들어 보세요. 준비물은 스프레드시트 또는 노션 표 하나입니다.
Step 1 · 업무 하나를 선택합니다. 반복적으로 Claude에 맡기고 싶은 업무를 떠올립니다. 예: 주간 보고서 요약, 고객 이메일 초안, 회의록 정리.
Step 2 · v1 프롬프트를 작성합니다. 지금 떠오르는 그대로 씁니다. 잘 쓰려고 하지 마세요. 일부러 거칠게 써도 됩니다. Claude에 실행하고 결과를 복사해 둡니다.
Step 3 · 자 3개로 v1을 평가합니다. 정확도, 형식, 사용도 각 1~3점. 부족한 항목 하나를 골라 수정 이유를 한 줄 씁니다.
Step 4 · v2 프롬프트를 만듭니다. 수정 이유에 해당하는 변수 하나만 바꿉니다. 실행 후 점수를 다시 매깁니다.
Step 5 · v3까지 반복합니다. 같은 방식으로 한 번 더. 표를 완성하면 v1~v3 비교 로그가 생깁니다.
표 양식을 영상 설명란에 링크로 달아뒀습니다. 다운받아서 바로 쓰세요.
CTA (30초)
다음 차시 #5에서는 Claude에게 역할을 부여하는 방법을 다룹니다. 같은 프롬프트라도 역할 설정 하나로 출력 품질이 달라지는 이유, 직접 확인하게 됩니다.
오늘 만든 v1~v3 비교 로그를 댓글에 남겨 주세요. 어떤 업무에 적용했는지, 어떤 변수가 가장 통하는이었는지. 제 경험상 이 댓글 하나가 다음 실험의 아이디어가 됩니다.
예상 분량: 15분