Home > インターネットあれこれ > やっていそうで誰もやっていない、アクセス解析データの「ノイズ除去作業」

やっていそうで誰もやっていない、アクセス解析データの「ノイズ除去作業」

image

気が付けば、ほぼ1年ぶりのネット系のネタになります。(大汗)
あ、いや、別にインターネットから遠ざかっていたわけではないんですが・・・

というわけで、ログ解析の話でもたまにはしてみようかなと。
選択バイアスの罠の所でも書きましたが、データ分析をやる上での前提をきちっと理解しましょう的なお話です。

Yahoo!ニュースで紹介されたらCVRが1/3に

ウェブサイトの内容にも依るのですが、大抵のサイトは通常のアクセス量というのが大体存在しています。(ブログとかニュースのサイトは一旦除く)

ところが、そういうサイトがひょんなことでアクセス大爆発を起こすことがあります。

  • Yahoo!ニュースで採り上げられた!ら、そこ経由の人は平均PV1.01だとか
  • 有名ブログで記事になったりとか
  • はたまた、何かしらやっちゃって炎上したとか(これは言わなくていいか・汗)

で、そうするとデータの母集団が全然違うものになってしまうわけです。

例えばコンバージョン率で言うと、数字が半分とか、下手をしたら1/5とかになってしまうわけでして、そんな謎の突然変異みたいなデータを分析しても全く意味不明になっちゃいます。

分かってても、誰もやっていないこと

「んなこと、言わなくても分かる!」と思った人も多いかもしれません。
でも、そこからちゃんとデータのノイズを除いて分析できているケースって、結構少ないんじゃないかなーと思います。

例えばこんな例だと・・・

image

その月の成果指標が狂うのはもちろんですが、四半期レベルでも結構露骨にデータが「ゆがんで」しまうんですよね。

なので、きちんとこういう「本来のサイトの動きとは関係ない突発的なイベント」を(できる限り)除外してデータを見ないと、本来のサイトの姿を見失ってしまったりするわけです。

ついつい面倒だと省きがちな作業ですが、あまりサボらずに、1年に何回かは手間をかけてちゃんとデータを集計しないとなーと思いながらも、やっぱり面倒だなーと思ってしまう今日この頃です(汗)

■ 関連エントリー

@fallinstarをフォローする@fallinstar このエントリーをつぶやく

Comments:0

Comment Form

コメントを表示する前にこのブログのオーナーの承認が必要になることがあります。

Remember personal info

Home > インターネットあれこれ > やっていそうで誰もやっていない、アクセス解析データの「ノイズ除去作業」

Feeds

Page Top