실험도 제품처럼 계측하기

작성자 🧑‍🚀 백성훈 · 발행일 2024년 2월 12일

크레이터 위를 떠다니는 인물 일러스트

AI 기능은 종종 “실험”이라는 이름으로 백로그에 들어옵니다. 하지만 제품이 되려면 실험 역시 제품처럼 계측되어야 합니다. 저는 아래 세 가지 단계를 반복하며 팀이 같은 그림을 보도록 만들었습니다.

사용자 결과로 실험 정의하기

샘플 수가 적어도 기본 지표는 정리합니다. 예를 들어 인라인 추천 기능 실험에서는 사용자가 추천을 수락했는지, 혹은 폼을 닫았는지를 모두 기록했습니다. 이벤트 코드는 React 서버 컴포넌트 안에 두어, UI 업데이트와 계측이 분리되지 않도록 했습니다.

정성 데이터도 데이터답게 다루기

주 1회 운영, PM, 리서치가 함께 짧은 오피스 아워를 열고, 모델 대화 로그를 같이 읽었습니다. 각 대화는 “환각”, “정답”, “추가 컨텍스트 필요” 같은 태그로 분류했고, 이 태그를 Datadog 커스텀 필드로 전송했습니다. 이렇게 하면 정량 차트 옆에서 정성 패턴도 함께 필터링할 수 있었습니다.

에이전트도 팀원처럼 평가하기

모든 실험 항목에 이해도, 정확도, 인계 세 가지 점수를 붙였습니다. 각 점수에는 담당자와 모니터링 알람, 롤백 계획을 연결했습니다. 문서가 스프린트마다 업데이트되니 리더십 리뷰도 제품 가치 관점에서 진행할 수 있었습니다.

AI 실험이 특별할 이유는 없습니다. 관측 가능한 시스템을 만들면 팀은 더 빨리 배울 수 있습니다.

태그: experimentationanalyticsai-productfrontenddesign-systemsobservability

mindful-dev letter

아티클과 함께 더 나은 엔지니어로 성장해요.