<aside> 💡 control 그룹과 treatment 그룹의 대상 인원 수 차이가 2배 가량 나는 점 → 데이터 수에 따라 기술통계 값(평균, 분산, 표준편차 등)이 달라질 수 있기 때문에 두 그룹의 수를 동일하게 맞출 필요가 있다. (오류값을 나중에 빼려고 그린 큰 그림이었구나)
</aside>
<aside> 💡 유저에 따라 시작한(그룹화된) 시점이 다른 점 → (사용 시작 시점이 다르기 때문에 어쩔 수 없지만) 언제 시작하든 동일하게 6월 30일까지의 Send messages 수만 metric으로 집계한다. 시작한 시점이 다르다면 그들에게 동일한 기간(예. 주말 4회 포함 28일)을 적용시켜야, 즉 특정 유저가 6월 15일부터 test 그룹에 적용됐다면, 7월 15일까지 봐야하지 않을까. (비교 대상인 control 그룹도 마찬가지)
</aside>
<aside> 💡 control 그룹의 유저는 기존 Send Messages에 익숙한 사람들이라는 점 → 최대한 동일한 조건의 비교를 위해 test group의 유저들에게도 일종의 '적응 기간'을 줘야 하지 않을까. 익숙한 수준이 비슷할 때 그룹별 메시지 수를 카운트 하는 것이 두 그룹의 통제성(?)을 높일 것이다.
</aside>
<aside> 💡 A/B Test는 참여자 간 설계라는 점 → 이것이 합당한가? 실제로 유저별로 느끼는 사용성의 개선을 보기 위해서는 test 그룹의 old ver. 사용 정도(예. 같은 그룹의 5월 사용 정도 vs 6월 사용 정도)와 new ver. 사용 정도를 비교할 필요가 있지 않을까.
</aside>
"통계는 틀린것은 증명할 수 있어도 맞는 것은 증명하기 어렵다"
대립가설: 내가 얻고자 하는 상황을 설정 → 맞는 것을 증명
귀무가설: 내가 얻고자 하는 진실과 반대 상황을 설정 → 틀린 것을 증명
→일반적으로 귀무가설을 세우고, 가설이 틀렸다는 것을 증명