이미지 출처  https://towardsdatascience.com/how-to-conduct-a-b-testing-3076074a8458

 

A/B테스트, 데이터 기반 의사결정을 이야기할 때, 정말 지겹도록 많이 듣는 단어입니다.

그런데 이 흔하디 흔한 A/B 테스트가 정작 제대로 수행되는 경우는 생각보다 드뭅니다.

A/B 테스트는 실험이 제대로 설계되지 않으면 이 테스트의 도입 취지에 맞춰 더 좋은 의사결정을 하는데에 도움이 되기는 커녕, 리소스만 낭비하고 오히려 잘못된 정보로 사람들을 잘못된 판단으로 이끌 수 있기 때문입니다.

그래서 앞으로 몇 번의 시리즈를 통해 이 A/B 테스트를 이루는 중요한 개념들을 설명하려고 합니다.

 

A/B 테스트가 뭔데??

A/B 테스트는 무작위 대조 실험(RCT: Randomized Controlled Trial)이라는 응용통계 기법을 제품 개발 등에 적용할 수 있게 간소화한 버전으로, 일종의 실험 방법론입니다.

‘무작위’ ‘대조(통제된)’ ‘실험’ 이라는 각각의 단어가 A/B 테스트의 핵심 키워드입니다.

오늘은 이 중 쉽지만 가장 중요한 실험이라는 단어의 의미를 설명해보려 합니다.

 

여러분, 혹시 학교 다닐 때 과학시간에 실험 했던 것 생각 나시나요?

화산을 폭발시킨다거나...

이런 실험을 왜 했을까요? 특정한 화합물 A와 B를 조합했을 때 어떤 결과가 나오는지를 배우기 위함이었을까요?

실험을 직접 해보는 근본적인 목적은 사건을 발생시키는데 필요한 조건이 갖춰져 있을 때 매번 같은 결과가 나온다는 것을 배우기 위해서입니다.

즉, 물을 가열하면 빨리 증발한다는 가설을 반복해서 확인해보면서, ‘Y라는 결과의 원인은 X’라는 답을 얻으면, X를 반복함으로써 Y역시 재현될 수 있다(젖은 옷에 열을 가하면 빨리 마른다)는 지식을 얻는 것이죠.

즉 실험의 핵심은

  • X가 Y를 일으킨다는 가정을 확인하여
  • (X가 정말 Y의 원인이라면) X의 반복으로 Y도 재현될 수 있다는 지식

을 얻는 것입니다.

A/B 테스트가 ‘지식’이 아니라 ‘실험’인 이유는, 우리가 바꾸는 어떤 조건이 결과에 영향을 미친다는 인과성에 대한 가설을 확인하는 과정이기 대문입니다.

이 ‘실험’이 의미하는 바가 좀 감이 오시나요?

성공적인 실험조직의 사례

A/B 테스트의 가장 유명한 사례는 bing의 검색엔진 결과 화면입니다.

검색결과의 길이를 조금 늘린 버전을 보여주자는 굉장히 사소해보이는 아이디어는 너무 사소해보여 우선순위가 몇 달이나 밀리고 있었습니다.

그러나 그 아이디어를 빠르게 실험하려고 나선 한 엔지니어 덕분에 실험이 이루어졌고, 실험의 분석결과 핵심적인 사용자 경험을 손상 시키지 않고도 매출을 12%나 증가시킨다는 것을 알게 되었습니다. 이는 빙 전체 제품에 적용되었고 빙 역사상 최고의 매출을 창출하는 아이디어가 되었습니다.

검색결과를 이러저러하게 바꿔 보여준다(X)가 사용자의 전환율을 높인다(Y)는 결과를 가져온다는 것을 실험을 통해 검증하고, 아이디어의 임팩트를 정량화하여 제품과 비즈니스를 성장시킬 수 있었던 것이죠.

 

하지만!!

현실에서는 우리가 지금 임팩트를 측정하고 싶은 X 말고도, Y에 영향을 줄 수 있는 요인이 너무나 많습니다. 정말 아무 이유 없이 지표가 개선되거나, 악화되는 경우도 생각보다 정~말 많은데, 그럴때조차도 의사결정을 위한 실험은 실험결과가 우연이나 다른 요인 때문이 아니라 X 때문이라는, Y에 대한 ‘인과성’을 보장해줄 수 있어야 합니다. 그러기 위해서는 충분한 샘플수, Bias가 최소화될 수 있는 실험 설계, 실험 결과에 대한 통계적 검증과 같은 것들이 필요합니다. 

 

때로는 실험을 할 수 없는 경우도 있습니다. 어떨때는 실험을 통해 기대할 수 있는 최고의 결과나 최악의 결과에 비해 실험 자체에 드는 비용이 너무 클 때도 있구요. 특히나, 조직적인 차원에서 실험을 통해 제품을 개선하는 문화를 만들어가려면 가장 중요한 것이 실험 결과 효과가 없는 것으로 밝혀졌을 때 그 아이디어를 폐기할 수 있느냐 인데, 실험을 해보면 거의 대부분의 아이디어가 임팩트가 없다는 것을 알게 되기 때문에 실험 역시 시스템적으로 효율화해야 합니다. 

 

아마존, 마이크로소프트, 우버, 에어비앤비와 같은 내노라하는 세계적인 팀에서도 실험을 통해 정말 효과를 검증하는데에 성공하는 아이디어는 20%도 되지 않는다고 합니다. 하지만 이미 어느정도 규모의 경제를 달성한 상태라면, 정말 작은 지표의 개선도 큰 임팩트가 되기 때문에 정교한 A/B 테스트 역시 훨씬 더 그 가치가 큽니다. 

 

반면 리소스가 제한된 스타트업 환경에서 백로그에 할 일이 쌓여있지 않은 팀은 정말 드물텐데요, 그때 A/B 테스트의 가치는 '임팩트가 더 큰 일을 찾기 위해서' 입니다. 그런데 테스트 결과를 보고 100개 중에 80개를 버리는데, 매번 개발을 다 하고 결과를 보고나서 개발 다 한 피처를 버린다? 이건 린스타트업이 A/B 테스트를 제대로 최적화한 상태는 아닌 것 같습니다.

 

이터레이션을 반복하면서 실험에 드는 비용을 점점 줄이고, 점점 더 적은 리소스로 의미있는 데이터를 얻을 수 있는 방법 등에 대한 개선된 학습이 이루어지지 않으면, A/B 테스트는 구성원들에게 쓸데없는 일만 늘리고 태클만 거는 거추장스러운 무언가가 될지도 모릅니다. 그래서 실험은 최소한의 비용을 들여 빠르게 실행해야 하고, 꼭 개발을 하지 않더라도 임팩트를 측정할 수 있는 더 작고 날렵한 방법들을 찾아내야 합니다. 또 UX가 중요한 B2C 프로덕트인지, 아니면 확장성과 유연함이 중요한 B2B 프로덕트인지에 따라서도 A/B 테스트의 목표와 가치 역시 달라진다는 것 또한 생각해봐야할 것 같습니다. 

 

 

관련해서 더 많은 내용을 알고 싶으시다면 다음의 컨텐츠를 추천합니다. 

 


  • 원문 작성일 : 23년02월21일
  • 사내에 발행했던 데이터레터 중 한 편으로, 공개를 위해 내용을 약간 수정했다. 사실 테스트 드리븐이 가능하려면 우선 데이터를 보고 의사결정하는 문화가 이미 어느정도 만들어져 있어야 한다. 어떤 지표를 어떻게 볼 것인지와 같은 리터러시가 어느정도 올라와있어야하고, 인과성에 대한 개념이 잡힌 뒤에야 의미있는 테스트가 가능하다. 막말로 vacant metric 놓고 A/B 테스트 백날 해봐야 의미 개뿔 없음.
  • 회사에서 왜 비즈니스 지표 뿐 아니라 제품 engagement 지표를 봐야하는지 설명하고 주장하면서 C팀 설득하는 단계를 증말 힘겹게 겨우겨우 넘어서, 이제 조금씩 PO들이나 PD들이 봐야하는 지표들을 구체적으로 잡아가는 단계를 헤쳐나가고 있는 주제에 내가 이런 글을 공유하는거 너무 민망한 일이지만...애초에 이 글은 데이터로 일하는 경험이 전혀 없는 비데이터 직군 분들에게, A/B 테스트의 파운데이션에 해당하는 개념들을 설명하기 위해 쓴 입문용이니 그냥 철판 깔고 퍼블리시 한다. ㅎㅎ 

 

Posted by SashaLee
,