A/Bテストの結果に検定が必要な理由

431
Pocket

 

あなたはA/Bテストで得られた数値データをどのように扱っていますか?

 

テスト結果の数値のみでデザインの優劣を判断しサイトに反映いる人もいれば、得られた数値は統計学的に有意差があるのかどうか分析してから使う人もいるでしょう。

 

「A/Bテスト 検定」というキーワードで検索してみると、検定は必要だと述べているサイトもあれば、必要ないと説明しているサイトもあります。そのためせっかくA/Bテストで貴重なデータを集めたものの、どのように扱っていいかわからないとお困りの方も少なくないでしょう。

 

果たして実際のところA/Bテストで得た数値データに対して、検定を行う必要があるのでしょうか。今回はそんな検定の必要性について説明します。

 

そもそも統計学的検定とは?

 

そもそも統計学的検定とはどんなものでしょうか。
wikipediaではこのように説明しています。

 

仮説検定(かせつけんてい)、もしくは統計学的仮説検定 (Statistical hypothesis testing)、あるいは単に検定法とは、ある仮説が正しいといってよいかどうかを統計学的・確率論的に判断するためのアルゴリズムである。 仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に(予め決めておいた値より)小さければ、「仮説は成り立ちそうもない」と判断できる。
引用元:wikipedia

 

A/Bテストの場合、「デザインAでは60人、デザインBでは50人がコンバージョンしたが、この結果は偶然ではないか。」という悩みを解消することができるものが統計学的検定というものです。

 

デザインAとデザインBの比較表

 

この結果が偶然ではないということを証明するために立てる仮説を「帰無仮説」と言います。帰無仮説を棄却することで、ある仮説の正しさを証明します。先ほどのA/Bテストの例でいうと、「デザインAとデザインBでコンバージョン数に差がある」が証明したい仮説で、「デザインAとデザインBでコンバージョン数に差はない」が帰無仮説となります。

 

A/Bテストに検定は必要?

 

ではA/Bテストで得られたデータに対して、検定を行う必要があるのでしょうか。

 

答えはイエスです。

 

A/Bテストにおいて、検定を行う必要がある最大の理由は、その結果が偶然起こった可能性があることです。先程の例を取り上げると、一見「デザインBよりもデザインAの方が、コンバージョン数が増加する」ように見えます。

 

A/Bテストの結果、デザインAの方が優れている?

 

しかし実はサンプルとなったユーザーが母集団を代表しておらず、大多数のユーザーはデザインBの方を好んでいました。その場合最初のA/Bテストの結果はたまたま起こったことであり、もう一度A/Bテストを実施すると、前回とは全く反対の結果が出てしまうでしょう。

 

A/Bテストのサンプルと母集団

 

ローデータの状態ではその可能性を否定することはできません。そのためテスト結果を鵜呑みにしてサイト修正を行っても、効果が出ないという危険性をはらんでいます。そうなってしまっては、せっかくお金と時間をかけてA/Bテストを行ったのに台無しです。

 

このような惨事を未然に防ぐために、テスト結果を検定して本当に信頼できるデータなのか明らかにしなければならないのです。

 

それではA/Bテストを実施したら必ず検定をしなければならないのか、と言われたらそんなことはありません。ある程度のサンプル数があれば、その結果が偶然起こったという可能性が低くなるからです。十分なサンプル数でA/Bテストを行い、デザインA・B間でコンバージョンに差があった場合、検定を行うとほとんどのケースで有意な差として認められます。

 

ただ、余裕があるならばサンプル数が多くても検定を行った方が良いでしょう。検定を行うことでその結果が偶然ではないという証明ができるので、データの信憑性が高まります。

 

余談ですが、検定済みデータであれば上司やクライアントに対して説得力の高い説明ができるでしょう。

 

どんな検定をすればいい?

 

検定には様々な種類があるため、どんな検定を行えば良いかわからない人も多いと思います。A/Bテストにおける検定では、この検定でなければならないと定まっていませんが、カイ二乗検定が最もメジャーです。

 

ただ、統計学を学んでいない人にとって手計算は少し面倒かもしれません。最近ではR言語を使うことで簡単に計算できるようになっています。また、SPSSのような統計処理ソフトでも簡単に有意確率を算出することができます。

 

以下に無料で使える検定ツールをいくつかご紹介します。ややこしい計算もなく、「訪問数」と「コンバージョン数」を入力するだけで検定してくれます。
このツールを使うことで、同じ内容でテストを行った場合に同じ結果になる可能性が90%以上※あるかどうかを統計的に証明できます。
ツールによって何%以上で計算するか変わりますが、一般的に99%、95%、90%のどれかで計算します。

 

 

検定の結果で有意差が無かった場合、どうすればいいのか?

 

サンプル数が少なくなりがちな中~小規模サイトでは、テスト結果はある程度特定のパターンが成果を上げたとしても、検定をしてみると「統計上の有意差はない」という結果になることが多くあります。そういった場合、以下の2つの対処法が考えられます。

 

有意差のハードルを下げる

 

上記でご紹介した検定というのは、
「あるテストを再び行った場合、同じ結果になる可能性が○%以上ある」
という証明をすることで有意差があるかを判定します。

 

この○%の数字、統計データなどの場合99%や95%などで計算されます。
しかしWebサイトのテストの場合、時期や業界動向などでかなり変動があることや、継続的に改善していくことを考えれば、それほどの正確さは必要ない場合がほとんどです。

 

そこでこの正確さのハードルを下げ、60~80%程度で同じようなテスト結果になると判断できれば有意差があると判断しても良いでしょう。どの程度の誤差であれば受け入れられるのかはサイトやチームの方針で決めましょう。

 

サンプルを増やすためにテスト期間を延長する

 

やはり統計的な信頼性の高いテスト結果を得たいということであれば、テスト期間を延長することでサンプル数を増やすことが解決策になります。

 

サンプル数が増えれば、有意差が出る可能性もあります。しかしながら基のパターンとテストパターンの成果の差が乏しい場合、サンプル数を増やしても有意差はなかなか出ず、だらだらとテストを続けることになりかねません。

 

一定期間で成果が出なければテストを打ち切り、より成果に差が出るようなテストパターンを作成してやり直す方が、機械損失が少なくなる可能性もあります。これもテストを行うチームの方針によって判断していきましょう。

 

まとめ

 

A/Bテストの結果データに検定を行うことの重要さがお分かりいただけたでしょうか。

 

A/Bテストツールは非常に便利ですが、使い方次第では存分に力を発揮できません。そのため結論として、検定を行うことをおすすめします

 

検定方法としてはカイ二乗検定が一般的で、ベターと言えるでしょう。手計算で有意確率を算出するのは非常に手間がかかるので、A/Bテストを継続的に実施し、徹底した分析をしていく場合は統計処理ソフトを導入してもいいかもしれません。

 

また、検定を自動で行ってくれるツールがいくつか無料で公開されています。あまり深く検定する必要のない方は無料のツールを活用しましょう。難しい計算を自分で行う必要がないので、分析にあまり時間をかけることができない方にとっては便利です。どのツールを選ぶかは、テスト結果の分析にどの程度時間を割けるかで決めるとよいでしょう。

 

テスト結果を鵜呑みにするのではなく、しっかりとした分析を行わなければ宝の持ち腐れになってしまいます。データは分析して初めて価値のあるものになるのです。

 

データを読み解く力はA/Bテストに限らずマーケティングを行う上で重要な能力です。表面的な結果だけを見るのではなく、そのデータが持つ本当の意味を考える癖をつけていくとよいでしょう。

Pocket

無料ebook

今すぐ見直すべきサイト内部リンク4つのポイント
姓(必須)
名(必須)
会社名(必須)
電話(必須)
メールアドレス(必須)
個人情報のお取り扱いについて

競合比較ができるSEOツール

最大10項目(順位/被リンク数など)の競合調査が無料でできます。

プロモニスタ編集部
プロモニスタでは、コンテンツマーケティングとコンテンツSEO、SEO対策を中心にwebマーケティング関連の最新情報やノウハウ、当社の事例を発信しています。