こんにちは!スタビジ編集部です!
近頃、ビッグデータを分析してビジネス的知見を得たりや将来の予想を行うといった需要が高まっています。
そんなビッグデータを高速で解析したい場合に使えるサービスが”BigQuery“です。
BigQueryはGoogleが提供するデータウェアハウスのサービスですが、初学者の方は中々なじみがないようです
そこで今回は、BigQueryのサービス内容やできること、分析方法などを分かりやすく解説します。
・BigQueryとは?
・BigQueryで出来ること
・BigQueryの料金は?2つの料金体系
・BigQueryの利用方法
・BigQueryを利用する際のポイント
ちなみにBigQueryの使い方をマスターしたいのであれば当メディア運営サービスの「スタアカ」の「10.SQL実践」がおすすめ!
ちなみに僕のUdemy講座でBigQueryのデータ加工集計100本ノックを提供していますので、ぜひ興味のある方は挑戦してみてください!
【超実践】SQLのデータ加工集計100本ノック!BigQueryで学ぶSQLの超実践講座!
【時間】 | 4.5時間 |
---|---|
【レベル】 | 初級〜中級 |
SQL✕データ集計・加工処理の100問に挑戦して腕試ししたいならこれ!今なら購入時に「VGRBCQDF」という講師クーポンコードを入れると94%OFFになりますのでぜひご受講ください!
目次
BigQueryとは?サービス内容を紹介
「BigQuery」とは、Google Cloud が提供する大規模なデータを管理・分析するためのデータウェアハウスです。
“データウェアハウス(DWH)“では、企業のさまざまなデータ源から収集・整理・統一された形で格納される大量のデータの集合体として利用できます。
そのため、分析、レポート、予測のために使用され、組織全体の意思決定のサポートに活用されます。
BigQueryの主なサービス内容は、以下の通り。
・サーバーレスのインフラストラクチャ
・データ処理速度が速い
・利用分のみ金額がかかる従量課金制
・Webブラウザ上のSQLで操作が可能
GCPについては下記の記事で解説しているので、チェックしてみてください。
サーバーレスのインフラストラクチャ
BigQueryの特徴として「サーバーレスのインフラストラクチャ」です。
サーバレスとは実際には”サーバーがない”わけではなく、“サーバーを明示的に管理する必要がない”構造のことです。
サーバーレスのサービスでは、サーバーの設定・運用・メンテナンスはGCPやAWSなどのクラウドプロバイダーによって管理されます。
そのため、サービス利用者はサーバー自体を管理する必要がなく、データの管理・分析に集中でき、インフラストラクチャにかかる手間やコストの削減が出来ます。
またBigQueryでは”可用性”と”回復性”を担保しているため、安心してサービスを利用できます。
- 可用性:複数のデータセンターにサービスを展開し、どこかで障害があってもシステムにアクセスが出来るようにする仕組み
- 回復性:データのバックアップを定期的にとっておき、障害があっても復旧出来るようにする仕組み
データ処理速度が速い
BigQueryの特徴として、「大容量のデータを高速で解析」できます。
データを高速で解析できる理由は、主に”分散並列処理”、”列指向のストレージ”の技術があります。
分散並列処理
BigQueryは大量のデータを多数のサーバーに分散させて並行して処理することで、データ処理の速度を向上させています。
大量のデータを高速にスキャンし、数秒〜数分でクエリを完了させて、結果を集計することが出来ます。
列指向のストレージ
BigQueryは、データベースがデータを列単位で保存する「列指向のストレージ」を使用しています。
大きなデータセットの一部だけをスキャンできるため、特定の列に対するクエリが高速化されて処理速度が速く、処理時間を大幅に削減することが出来ます。
利用分のみ金額がかかる従量課金制
BigQueryは利用した分だけを課金する「従量課金制」です。
課金の対象は下記の2つになります。
- 分析料金:実行したクエリの処理にかかるデータ料金
- ストレージ料金:BigQueryに読み込んだデータの保存料金
実行した処理やデータ量に依存するので、まずは試しに利用したい場合、少額で利用することが出来ます。
また、分析をがっつりやりたい場合は、1ヶ月や1年間の単位であらかじめ処理容量を確保する定額プランがあります。
定額プランは分析料金が対象で、予めどのくらいのリソースが分析に必要かわかっている場合、このプランの方が費用を抑えられるのでお得です。
料金形態に関しては”BigQueryの料金は?2つの料金体系“で詳しく解説します。
Webブラウザ上のSQLで操作が可能
BigQueryは、「Webブラウザ上でデータベース言語のSQLを記述して操作すること」が出来ます。
ブラウザ上では、クエリを操作するためのクエリエディタがあるため、SQLの言語を知っていれば簡単に操作可能です。
特定のデータベース管理ツールをダウンロード・インストールする必要がなく、GCPのアカウントがあればすぐに利用できます。
またクラウドベースのツールのため、複数のユーザーが同時にアクセスでき、共同作業も可能です。
BigQueryで出来ること4つ
「BigQueryで出来ること」を見ていきます。
BigQueryで出来ることは以下の4つです。
1.データ分析
2.リアルタイムでのデータ解析・保存
3.さまざまな他のGoogleツールを連携可能
4.データベースの簡素化と統合
1.データ分析
まず、BigQueryの一番の利点は、「大規模なデータセットを高速に分析できる能力」です。
現代のビジネスでは大量のデータを取り扱うことが日常的になっている場合が多く、大量のデータを取り扱う機会が増えます。
SQLの操作方法を学ぶことで、データを素早く処理して、必要な情報をすぐに取り出せます。
2.リアルタイムでのデータ解析・保存
BigQueryでは「リアルタイムでのデータ解析と保存」が可能です。
BigQueryでは他のサイトやサービスと連携しデータを収集することで、リアルタイムに分析することが出来ます。
例えば、ウェブサイトの訪問者数をリアルタイムで追跡することで、”現在どのページが人気なのか”などをすぐに把握できます。
このようにリアルタイムに分析し人気のページに広告を入れるといった、素早く効果的なアクションを取ることにつながります。
3.さまざまな他のGoogleツールを連携可能
BigQueryで出来ることとして、「他のGoogleツールと連携」があります。
以下のツールと連携することで、より良いデータ分析が可能です。
- Googleスプレッドシート:BigQueryのデータ分析結果をグラフ・図表にできる
- Googleアナリティクス:蓄積されたデータをBigQueryにエクスポートして分析可能
- Google Data Portal:レポートやダッシュボードにBigQueryのデータや情報をまとめる
- Looker Studio:BigQueryのデータや情報を可視化して、レポートとして共有できる
Looker Studioについては以下の記事で使い方を解説しているので、参考にしてみて下さい。
またGA4のデータをBigQueryに連携する方法に関しては以下の記事で解説していますのでチェックしてみてください!
4.データベースの簡素化と統合
BigQueryは「データベースの簡素化と統合」が可能です。
データベースの管理は複雑で時間を取られがちなため、簡素化することで時間と労力を節約できます。
例えば、データベース管理では、データベースの設定やメンテナンス、バックアップなど多くの手間と知識が必要になります。
しかし、BigQueryではGoogleが全てのサーバー管理を行っているため、ユーザーはデータベースのメンテナンスやスケーリング(リソースの増減対応)などを気にする必要がありません。
また、BigQueryではデータの保存と分析を一つの場所で行えるため、データベースの統合も出来ます。
BigQueryの料金は?2つの料金体系
「BigQueryの料金体系」について見ていきます。
BigQueryの料金はクエリの処理費用としてかかる”分析料金”とデータの保存費用としてかかる”ストレージ料金”に分けられます。
1.クエリの処理にかかる分析料金
分析料金には、2種類の料金モデルがあります。
オンデマンド料金 | ・処理されたバイト数に基づき課金($5.00 per TB) ※毎月1TBまで無料 |
定額料金 | 以下のコミットメントプランで仮想CPUのスロットを購入 ・Flex Slots:購入できるコミットメントは最初の60秒分(100スロット:月$2,920) ・月間:購入できるコミットメントは最初の30日分(100スロット:月$2,000) ・年間:購入できるコミットメントは365日分(100スロット:月$1,700) |
料金モデルは、2つに分かれていますが、両方のモデルを組みあわせて利用することも可能です。
オンデマンド料金は使った分の課金になるのでどのくらい利用するか予想できない場合や試しに使ってみたい場合におすすめです。
一定期間BigQueryのコンピューティング容量を購入する定額料金のプランは期間を決めて分析をする際におすすめです。
また、短期間で大量のデータを分析したい場合は、定額料金の”Flex Slots”を選択すると効率的に費用を抑えられます。
2.データを保存するストレージ料金
「データを保存するストレージ料金」は、BigQueryで保存されたデータ容量に基づいて計算されます。
そのため、保存するデータが多ければ多いほど、料金も高くなります。
料金は、アクティブストレージと長期保存の2種類あります。
アクティブストレージ | ・過去90日間で変更されたテーブル・テーブルパーティションが含まれる ・料金:$0,020 per GB ※毎月10GBまで無料 |
長期保存 | ・90日間連続して変更されていないテーブル・テーブルパーティションが含まれる ・料金:$0,010 per GB ※毎月10GBまで無料 |
料金はMB・秒あたりで課金されます。
90日間使用されていないテーブルは自動的に長期保存レートで請求されます。
以下が課金例です。
- 50GBを半月格納した場合:$5
- 1TBを1カ月格納した場合:$20
- 1TBをデータにアクセスせず6カ月格納した場合:$90(20*3+10*3)
ストレージに課金が発生してしまいますが、可用性や機能性などGoogleで管理してくれるので、特に理由がなければ別のストレージを用意するのではなくそのまま利用するのがおすすめです。
BigQueryを利用方法を紹介
ここで「BigQueryの利用方法」について見ていきましょう
GCPへのアクセス
まずは、BigQueryのトップページに入り、”BigQueryの無料トライアル“をクリックします。
下記項目に適切なものを選択し、”続行”をクリックします。
- 国:住んでいる国を選択
- お客様の組織またはニーズの説明として最も適切なものはどれですか?:GCPの使用用途を選択
- 利用規約:GCPの利用規約への同意
- 最新情報に関する通知メール:GCP関連ニュースの通知の是非
次に”お支払いプロファイル”で支払い情報を入力して「無料トライアルを開始」をクリックしてGoogle Cloudにログインできます。
支払情報は本人確認のため行われるもので、何かリソースを立ちあげないかぎりは自動で課金が発生することはないです。
BigQueryの設定
Google Cloudに入ったら、画面左上の”ナビゲーションメニュー(左上にある”≡”)”を選択して”BigQuery”をクリックします。
“エクスプローラ”内にすでに用意されているプロジェクト(”:(アクションを表示)”)を選択し、”データセット作成”をクリックします。
“データセットの作成”では”データセットID”に適当な名前を入力し、他の項目はデフォルトで作成します。
他のGCPサービスとの連携を考慮してリージョンに”asia-northeast(東京)”を選択したり、ストレージ料金を抑えるためテーブルの有効期限を設定したり、利用用途に応じて、適宜項目を設定しましょう。
作成したデータセットで”テーブルを作成”をクリックし、テーブルを作成します。
ここで必要な情報を入力したら”テーブルを作成”をクリックします。
最初は自分でcsvファイルを作ってアップロードする方法が簡単に確認できるのでおすすめです。
また下記のエラーが出る場合は“スキーマ”の”自動検出”にチェックを入れましょう。
“スキーマ”タブでカラムの一覧、”プレビュー”タブでデータを確認できます。
では作成したデータセットにクエリを実行してみます。
クエリの実行画面はデータセット右側にある”:”を選択し”クエリ”をクリックして移動します。
クエリを書いて”実行”ボタンを押すとクエリの実行結果が下部に表示されます。
ここでいろんなデータを収集して分析していきましょう。
SQLの基礎を学びたい方は下記の記事を参考にしてみてください。
BigQueryを利用する際のポイント
BigQueryを使う際のポイントも押さえてきましょう。
BigQueryを利用する際のポイントは以下です。
・プレビューで費用を見積もる
・費用を抑える場合は課金の最大バイト数を設定する
・テーブルプレビューオプションを使い無料でデータ表示する
それぞれ見ていきましょう。
プレビューで費用を見積もる
BigQueryを利用する際には、「プレビュー機能を使って費用を見積もる」ことをやりましょう。
特に処理が大規模になるクエリを実行する場合、料金が予想外に高くなる可能性があります。
そのため、事前に実行するクエリがどの程度のコストがかかるか確認しておくと、予算をオーバーせず適切な利用が出来ます。
費用を抑える場合は課金の最大バイト数を設定する
BigQueryでは、クエリ実行の費用を制限する方法として、「課金の最大バイト数を設定」できます。
クエリを実行する前に”クエリの設定”>”詳細オプション”で”課金の最大バイト数”を設定出来ます。
クエリの処理するデータ量が設定値を超えると、クエリの実行が自動的に停止するため、予想外の高額な請求を防ぐことが出来ます。
テーブルプレビューオプションを使い無料でデータ表示する
BigQueryでは、クエリを実行すると料金がかかるため、「テーブルプレビューオプションでデータを表示」させることがポイントです。
テーブルプレビューオプションを利用すると、データを表示することが出来るので、簡単なデータの確認はクエリを使わずここで見ると費用を抑えられます。
BigQuery まとめ
今回は、BigQueryのサービス内容やできることについて解説しました。
BigQueryの主なサービス内容は、以下の通りです。
・サーバーレスのインフラストラクチャ
・データ処理速度が速い
・コストパフォーマンスが高く利用分のみの課金が可能
・Webブラウザ上のSQLで操作が可能
BigQueryは、サーバーレスのクラウドサービスでサーバーの管理が不要であり、データ処理速度が速いのが特徴です。
Webブラウザ上のSQLで操作でき、複数のユーザーで共同作業を行えます。
料金体系も柔軟に選択可能で、事前に費用を算出できるため、安心して運用することが出来ます。
BigQueryの使い方をマスターしたいのであれば当メディア運営サービスの「スタアカ」の「10.SQL実践」がおすすめ!
スタアカは業界最安級のAIデータサイエンススクールです。
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
ちなみに、BigQueryなどを正しく使用してビジネス貢献のできるデータ基盤の構築をする上ではDMBOKの考え方が重要です。
こちらに関しては、以下のUdemy講座で詳しく解説しているのでそちらをチェックしてみてください!
【初学者向け】データマネジメント入門!DX推進やAI 導入を支える重要な要素をDMBOKに沿ってみていこう!
【オススメ度】 | |
---|---|
【時間】 | 1.5時間 |
自分で言うのもなんですが、データマネジメントについてDMBOKに沿ってこれでもかというくらい分かりやすくまとめています!
また、データベースの操作をまずは勉強したい方は、下記の記事で解説しているのでチェックしてみてください。
また、データ分析について興味がある方は、以下の記事でデータ分析の資格について解説しているので、見てみてください。