Google Cloud Next のメモです。BigQuery中心にみたのですが、だいたい、入門〜中級へのステップアップTipsみたいな感じで紹介されていました。
以下、『BigQuery の先進機能 : クラウド データウェアハウスの未来を開く鍵』ジョーダン ティガー二氏のセッションのメモです。
・Explanationと仲良くしろ。中で動いているシャードを意識しろ。
・シャッフルを意識しろ。高速に計算できる。quotaに注意。ステージ N から N+1 へのマッピングが統計的に決定できない場合はシャッフルされる。
・大きすぎるJOIN。シャード過負荷になる場合がある。クエリを分割する。
・大きすぎるソート。ORDER BY と LIMITでシャードのリソースを減らして出す。
・大きすぎるカウント。APPROX_COUNT_DISTINCTが早い。正確さ注意。計算結果は概算値となる。エラーレートは 0.3% ~ 1%。内部では、HyperLogLog++を使っている。
写真は、セッションが始まる前のスライドテスト。
(セッション中、となりの人が居眠りしていましたね。。。)