データマネジメント

データマネジメントとは?DMBOKに沿ってまとめておこう!

データマネジメント
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、データ活用において非常に重要であるデータマネジメントについてDMBOKの考え方に沿ってまとめていきます。データマネジメントを疎かにしてしまうと、せっかくのデータも意味をなさなくなりますので必ずおさえておきましょう!

こんにちは!

消費財メーカーのデータサイエンティスト、ウマたん(@statistics1012)です!

データを扱う仕事をしていると必要になるのがデータマネジメント

攻めのデータ分析を行うためには、地道な守りのデータマネジメントが非常に重要になってくるのです。

ロボたん
ロボたん
データマネジメントってそんなに重要なのー??
ウマたん
ウマたん
データマネジメントの地盤がしっかり固まっていないと適したデータ活用ができないんだ!

そんなデータマネジメントを体系的に学ぶ上で非常に有用なのが、DMBOK

created by Rinker
Technics Publications
¥8,998
(2021/04/11 21:32:10時点 Amazon調べ-詳細)

データマネジメントに関する知識を体系立ててまとめた書籍であり、DMBOK はData Management Body of Knowledgeの略です。

それを分かりやすくまとめた「データマネジメントが30分でわかる本」という書籍も非常におすすめです。

created by Rinker
¥500
(2021/04/11 21:32:10時点 Amazon調べ-詳細)

この記事では、そんなデータマネジメントに関してそれらの書籍を参考にしながら、より簡潔に分かりやすくまとめていきたいと思います。

なぜデータマネジメントは重要なのか

Coding

なぜデータマネジメントは重要なのでしょうか?

データマネジメントがしっかり行われていないデータ分析は、船底に穴の空いた船のようなもの。

最初は素晴らしい船出に見えても、その船はみるみる沈んでいきます。

データ活用も同じ。

多額のコストをかけて作り上げたデータマネジメントプラットフォームDMPやそれに付随するモデルもデータマネジメントが行き届いていないと形骸化していってしまいます。

このような状況を避けるために徹底したデータマネジメントが重要になってくるのです。

データのリスクが表出するたびに、場当たり的な対応でその場しのぎを続けることはできません。

DMBOKによるデータマネジメントの領域をそれぞれ簡単に解説

Teacher

DMBOKではデータマネジメントの領域を11個に分けています。

・データアーキテクチャ
・データストレージとオペレーション
・データ統合と相互運用性
・データモデリングとデザイン
・マスターデータ管理
・ドキュメントとコンテンツ管理
・データセキュリテイ
・データ品質管理
・データウェアハウジングとビジネスインテリジェンス
・メタデータ管理
・データガバナンス

これらに簡単に見ていきましょう!

データアーキテクチャ

pc python

まずは、データアーキテクチャ。

これはデータがどのようにビジネスに活用されているのかを俯瞰してみることの出来る設計図です。

既存のデータがどこから取得され、どこに保存され、どのようにビジネスに活かされているのかを理解して、その上で無駄なデータを整理して、必要なデータを定義します。

この時、

「ビジネスにおいてどのようなゴールを目指しそのゴールを達成するためにはどのようなデータが必要か」

という観点で考えましょう!

データストレージとオペレーション

File bundle

2つ目がデータ・ストレージとオペレーション

ビジネス要件に合致するデータベースの保守・運用を行うことです。

セキュリテイとビジネス要件の観点からデータベースの設計・開発を行いましょう!

データ統合と相互運用性

road

3つ目がデータ統合と相互運用性データ活用の観点から使いやすいデータを作り適切な場所への移動を行うことです。

いわゆる、Extract, Transform, LoadのETLと呼ばれる領域になります。

適切なデータをビジネスに活用しやすい形にして適切な場所に保存しましょう!

データモデリングとデザイン

About me

4つ目がデータモデリングとデザイン

データが増えてくると、様々なデータテーブルが作成され、テーブル同士の関連性がわかりづらくなります。

そのテーブル同士の関連性をまとめた図がいわゆるER図と呼ばれているものでデータの運用・保守に非常に重要です。

ER図は形骸化してしまうと使い物にならないので、誰がどのタイミングで更新するか決めて運用を行いましょう。

マスターデータ管理

Analytics

5つ目がマスターデータ

顧客マスターや商品マスターなどの全データの基本となっていて常に最新であり信頼できるデータのことをマスターデータと呼びます。

マスターデータと似たデータテーブルがあると混乱を招きます。

マスターデータの管理と運用ルールのガバナンスをきかせましょう!

ドキュメントとコンテンツ管理

Portfolio

6つ目がドキュメントとコンテンツ管理

プロジェクト計画書やデータ分析レポートなど非構造化データに関してもしっかり管理を行うことが重要です。

このようなデータは往々にして放置され大量のデータの中に埋もれてしまいがちなので、定期的にメンテナンスをして管理する体制が必要です。

データセキュリテイ

Data report

7つ目がデータセキュリティ

ビジネス観点でデータを運用するとともに、セキュリティ観点で管理することも重要です。

顧客の個人情報を誰にでもオープンな形で保存していることはNGなように、データのセキュリティレベルを管理し、アクセス権限をコントロールすることが重要です。

地味に思えますが、万が一のリスクを防ぐために企業活動として重要な部分です。

時代の流れでセキュリティの考え方は変わりますので、それに合わせてアップデートすることが必要です。

データ品質管理

robot

8個目がデータ品質管理

データに欠損が発生していたり、最新のものではなかったりすると、データ活用に不具合が生じます。

一度生じてしまったデータの不備は後で復元するのに労力を使う場合が多いです。

必ずデータの品質を常に保てるようにしておきましょう!

データウェアハウジングとビジネスインテリジェンス

Charts

9個目がデータウェアハウジングとビジネスインテリジェンス

DMPでデータをビジネス活用しやすいような形で保持し、BIツールを用いて効果的なPDCAサイクルをまわしましょう!

BIダッシュボードはターゲットと目的を明確にしないと形骸化してしまいます。

無駄に作られたBIが乱立することになってしまうんです・・・

それを避けるためにビジネス要件からデータ活用のターゲットと目的は明確にしましょう!

メタデータ管理

python

10個目がメタデータ管理

他の項目とも関係していますが、データを管理するためのデータのこと。

どのデータがどこにどのセキュリティレベルで置いてあるかを一元把握できるようにしておきましょう!

データガバナンス

Stories office

最後にデータガバナンス

ここまでのデータマネジメントの要諦をしっかりガバナンスを効かせて運用できる体制を作ることが重要になります。

現場レベルだけ進めるのではなく経営レベルの理解と介入が必要になってきます。

DMBOKに基づくデータマネジメント まとめ

ここまでで、データマネジメントにおける要諦についてまとめてきました!

データマネジメントの領域は以下の11個に分かれます。

・データアーキテクチャ
・データストレージとオペレーション
・データ統合と相互運用性
・データモデリングとデザイン
・マスターデータ管理
・ドキュメントとコンテンツ管理
・データセキュリテイ
・データ品質管理
・データウェアハウジングとビジネスインテリジェンス
・メタデータ管理
・データガバナンス

データマネジメントは守りの仕事に見えますが、攻めの経営をする上で非常に重要な部分なので是非おさえておきましょう!

短期的には地味な仕事ですが、おろそかにすると長期的にボディブローのように効いてきます。

もっとデータマネジメントについて知りたい!という方は是非
・データマネジメントが30分でわかる本
・DMBOK
を手に取ってみてください!

created by Rinker
Technics Publications
¥8,998
(2021/04/11 21:32:10時点 Amazon調べ-詳細)

created by Rinker
¥500
(2021/04/11 21:32:10時点 Amazon調べ-詳細)

ぜひデータマネジメントをしっかりおこなって健全なデータ活用を進めていきましょう!

 

Pythonを初学者が最短で習得する勉強法

Pythonを使うと様々なことができます。しかしどんなことをやりたいかという明確な目的がないと勉強は捗りません。

Pythonを習得するためのロードマップをまとめましたのでぜひチェックしてみてくださいね!