catch-img

マルチクラウド実践:AWSデータ×BigQuery連携検証

近年、企業のデータ活用の高度化・多様化が進み、単一クラウドに閉じた構成ではなく、複数クラウドを前提としたデータ連携が求められるケースが増えています。
特に、AWS上に蓄積された業務データを、分析基盤として高い評価を受けているBigQueryで活用したい、というニーズは多くの現場で顕在化しています。

一方で、クラウドをまたいだデータ連携はセキュリティ、運用負荷、コストといった観点で慎重な設計が必要です。
「実際にどの連携方式が現実的なのか」「案件で使える構成はどれか」といった点について、机上検討だけでは判断が難しいのも事実です。

こうした背景から、株式会社エヌアイデイでは AWS上のデータをBigQueryに連携する複数パターンを実際に構築・検証し、今後のソリューション提案に生かすための技術検証をおこないました。

本記事はスライドの記載内容をもとに、検証の要点を簡潔にまとめています。詳細な検証内容や技術的な説明は埋め込みのスライド本文をご参照ください。

検証の目的

本検証の目的は、主に以下の2点です。

一つ目は、Google Cloud環境におけるデータウェアハウス/データ分析領域での提案力強化に向けたナレッジ蓄積です。
BigQueryを中心としたデータ分析基盤について、実案件を想定した構成を検証することで、設計・構築時の判断材料を整理することを狙いました。

二つ目は、BigQueryとデータレイク接続に対応するプロジェクトを円滑に進めるための事前検証です。
あらかじめ構成上のポイントや注意点を把握しておくことで、案件対応時のリスク低減につなげることを目的としています。

検証方法

今回の検証では、AWSのS3バケットおよびRedshiftをデータソースとし、BigQueryへのデータ連携および分析結果の可視化までを確認しました。
検証は以下の4パターンに分けて実施しています。

S3からBigQueryへのデータ連携

BigQuery-S3連携

AWS S3に配置したCSVデータを、BigQuery Data Transfer Serviceを利用してBigQueryに取り込む構成です。
S3に対してはS3ReadOnly権限を持つIAMユーザーを作成し、アクセスキーを用いてBigQuery側からデータを取得しました。

RedshiftからBigQueryへのデータ連携

BigQuery-RedShift連携

Redshiftのデータを一度CSV形式でS3へアンロードし、その後2.1.と同様にBigQuery Data Transfer Serviceを用いてBigQueryに連携する方式です。
Redshiftを直接参照するのではなく、S3を中継する形での連携を検証しています。

BigQueryからスプレッドシートへのデータ連携

BigQuery-SpreadSheet連携

BigQueryに取り込んだデータを、Googleスプレッドシートの「コネクテッドシート」機能を利用して参照・可視化しました。
SQLを書かずにデータを確認できるため、非エンジニア層での活用も想定した検証です。

S3イベントドリブンによるBigQuery連携

BigQuery-S3 EventDriven連携

S3へのファイルアップロードをトリガーとして、自動的にBigQueryへデータを取り込むイベントドリブン構成です。
S3イベント通知、SQS、Storage Transfer Service、Cloud Functionsを組み合わせ、データ登録の自動化を検証しました。

※構成図や詳細な検証手順はスライド本文をご参照ください

検証結果と考察

検証方針として設定した上記4パターンについては、すべて問題なく実現できることを確認しました。
AWSとGoogle Cloudをまたいだデータ連携であっても、マネージドサービスを組み合わせることで、比較的シンプルな構成が実現可能であることがわかりました。

一方で、S3とBigQueryの連携方式については、用途に応じた使い分けが必要である点も明確になりました。

  • BigQuery Data Transfer Service / Storage Transfer Service
    アクセスキーの払い出しが必須となるため、セキュリティ要件が厳しい案件では利用が難しい場合があります。
  • BigQuery Omni
    IAMロールを利用でき、アクセスキーが不要というメリットがありますが、検証当時は対応リージョンが限られており、日本リージョンでは利用できませんでした。
  • GCS経由の連携
    IAMロールを利用できる一方で、GCSを経由する分、構成が増えコストも上昇します。

また、イベントドリブン構成については、初期設定やサービス間連携の理解が必要で、構築難易度はやや高いものの、運用自動化という点では大きなメリットがあると考えられます。

まとめ

今回の検証を通じて、AWSとBigQueryを組み合わせたマルチクラウド型データ分析基盤が、実案件レベルで十分に実現可能であることを確認できました。
同時に、連携方式ごとの特性や制約を把握することで、案件ごとに最適な構成を選択するための判断材料も整理できています。

今後は、セキュリティ要件やコスト、運用負荷を踏まえた設計指針をさらにブラッシュアップし、より実践的なソリューション提案につなげていきます。
エヌアイデイでは引き続き、こうした技術検証を通じて、クラウド活用における現場目線の知見を蓄積し、お客様のデータ活用をサポートしてまいります。


※本資料に登場する会社名・製品・サービス名、ロゴマークなどは該当する各社の商号・商標または登録商標です。

船渡川 碧
船渡川 碧
2023年度基本情報技術者試験取得。AWS SAA 2024年取得。座学だけでなくハンズオンで理解を深めるために、技術検証以外でもAWS上でCICDなどを検証中。

関連記事