(1) A/B 테스트 결과 유효성 확인

야머는 새로운 기능을 개발할 뿐만 아니라 기존 기능을 개선할 수 있는 방안을 지속적으로 모색하고 있다. 많은 소프트웨어 회사들처럼, Yammer는 그들의 모든 고객들에게 그것들을 출시하기 전에 종종 이러한 기능들을 테스트한다. 이러한 A/B 테스트는 분석가와 제품 관리자가 어떤 특징이 사용자 행동과 전체적인 사용자 경험에 미치는 영향을 더 잘 이해할 수 있도록 돕는다.

이 사례는 Yammer의 핵심 '퍼블리셔' 즉, 사용자가 자신의 메시지를 타이핑하는 Yammer 피드의 맨 위에 있는 모듈을 개선하는 데 초점을 맞추고 있다. 이 기능을 테스트하기 위해 제품 팀은 6월 1일부터 6월 30일까지 A/B 테스트를 실시했다. 이 기간 동안 Yammer에 로그인한 일부 사용자에게는 이전 버전의 퍼블리셔("control group")가, 다른 사용자에게는 새로운 버전("treatment group")이 표시되었다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/f72aa0c8-56f6-4b2f-8e87-afc22f82f84c/Untitled.png

(2) The problem

On July 1, you check the results of the A/B test. You notice that message posting is 50% higher in the treatment group—a huge increase in posting. The table below summarizes the results:

7월 1일에 A/B 테스트 결과를 확인하게 된다. 당신은 treatment group에서 메시지 포스팅이 50% 더 높다는 것을 알게 되었다. 이는 포스팅의 엄청난 증가였다. 아래 표에는 결과가 요약되어 있다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/6822a8af-dc25-42ba-af8e-3e6b5b99f013/Untitled.png

그룹 간 평균 게시율을 비교하는 위의 시험은, 통계적 신호 전달을 결정하기 위해 간단한 Student's t-test을 사용한다. 평균에 대한 시험의 경우, t-검정은 일반적이지만, 다른 고급 통계 기법이 사용되기도 한다. 게다가 위의 테스트는 treatment group이 대조군보다 더 잘하거나 더 나쁘게 수행될 수 있기 때문에 two-tailed test를 사용한다. (그러나 일부에서는 one-tailed 테스트가 더 낫다고 주장한다.)