Youtube的統計誤差:
一.尾數省略:
Youtube的數字顯示,在破萬後,就會有省略尾數的情況。這點就算在其他數據分析網站,也會看到相同的結果。這造成在判斷數據上,會出現相當程度的誤差。
在一千以前不會有這個問題,訂閱數的個位數是會顯示的。
一千以上,尾數只會顯示到十位數,同樣是1050,可能代表1059,以可能代表1050。只要沒到1060,是不會更新到1060的。
一萬以上,訂閱尾數只會顯示到百位數。
十萬以上,訂閱尾數只會顯示到千位數。
百萬以上,訂閱尾數只會顯示到萬位數。
參考位址:(訂閱人數計算)
有鑑於此,在計算模型的時候,必須依照位數做一個明顯的分層,一萬、十萬、百萬的計算需要分開統計,以減少誤差。
另外尾數顯示省略造成的影響大約1%,尚在可接受範圍內。所以一些指標依然會將訂閱數列為計算參數代入,只是在回歸模型建立時分開來看。
二.無效數據刪除:
除此之外,Youtube的訂閱數會有倒退的情況,可能第一天顯示為100,第二天倒退到98。這是因為Youtube的訂閱人數如有已關閉的帳號,或者被視為人為手法操作加入不實訂閱者,會在檢查後剃除造成訂閱人數倒退。
同樣的情形在觀看次數跟讚數也有可能倒退回溯,這是由於Youtube為了減少不實互動,會定期將不符合他們標準的觀看次數或讚數給刪除。
參考為只:(不實互動處理政策)
因為這個政策,所以會出現觀看次數或讚數降低的情況,至於誤判了會不會補回來,並沒有相關文獻參考。
在這邊的處理方式是,分一日後、三日後、七日後三個階段另外紀錄各項參數,以減少這類變動帶來的誤差。