データクレンジングとは?ツール・やり方・成功事例まで徹底解説
みなさんの組織では、どんな風にデータクレンジングを行っていますか?
急速なデジタル化が進む現代のビジネス環境において、データクレンジングは欠かせない業務になっています。
本記事では、データクレンジングとは何か、具体的な手法、やり方と手順、ツール選び、成功事例などを交えて解説します。
目次
データクレンジングとは?
データクレンジングとは、蓄積されたデータから、エラーや表記ゆれ、欠損、重複などを取り除き、データの品質を高めることにより、データを活用しやすい形に整える処理のことです。
「データクリーニング(data cleaning)」と表現されることもあり、英語圏ではこちらの方が一般的です。
「データクレンジング」と「名寄せ」の違い
データクレンジングとセットでよく使われる用語に「名寄せ」があります。
「名寄せ」とは、同一の人物や企業であるにもかかわらず、別々のデータとして記録されている「重複データ」を特定し、同一の人物や企業を1つのレコードに統合する作業のことです。
「名前を1つに寄せる」という意味の用語であることから、対象となるデータが顧客データなど「人や企業の名前」を含むデータである場合に使われることが多いです。
「名寄せ」の方が「データクレンジング」よりも狭い範囲を示す概念であり、「名寄せ」はデータクレンジングの手法の一つ、という位置づけにあります。
なぜ必要? データクレンジングが重要な理由
なぜデータクレンジングが必要とされているのでしょうか。
その理由は、私たちがビジネスの過程で取り扱うデータのほとんどは、クレンジングなしでは上手く活用することができないからです。
たとえば、顧客データベースを想像してみてください。顧客の氏名、住所、電話番号、購入履歴などが記録されていると思いますが、ほとんどの場合、入力ミスや参照元の違いなどによって、以下のように「汚れ」が生じています。
- 同一会社だが「株式会社ABC」「㈱ABC」「ABC, Inc.」のように複数の表記が混在している(表記ゆれ)
- 同一人物だがそれぞれ別の顧客として2人分登録されている(重複データ)
- 電話番号が空欄になっている(データの欠損)
- すでに不通となっている古いメールアドレスが登録されている
このような「汚れ」が混ざった状態でデータを利用してしまうと、次のような問題に直面することになります。
- 業務効率が下がる:データの検索や修正、従業員同士の確認・問い合わせなどに余計な時間と労力がかかってしまう
- 現状認識を誤る:欠損や重複だらけのデータを分析することにより、間違った現状把握や将来予測をしてしまう恐れがある
- 意思決定の精度が下がる:現状把握や将来予測が不正確であれば、それに続く戦略立案や意思決定も的外れなものになってしまう
- 営業効率が下がる:同じ顧客に何度も営業をかけてしまう、ターゲット外の顧客にアプローチしてしまう、など
- 顧客満足度が下がる:誤った情報に基づいて顧客対応してしまうため
要するに、データをクレンジングせずに使っていると、ビジネスのあらゆる側面で弊害が生じ、成長が阻害されてしまうということです。
データクレンジングの5つのメリットと効果
データクレンジングを行うことにはさまざまなメリットがあります。ここでは、そんなデータクレンジングのメリットのうち、ビジネスにもっとも大きな効果を及ぼす5つの例を紹介します。
①業務効率の向上
データの重複や誤りを取り除いておくことで、データの処理や加工にかかる工数を圧縮できます。また、データを検索して必要な情報を探し出すのにかかる時間や、「あれどうなってます?」「これどういうことですか?」のような社員同士のやり取りも減らせるでしょう。あらゆる業務プロセスがスムーズになり、効率アップが見込めます。
②意思決定の精度向上
データに重複や表記ゆれが無ければ、データ分析の精度を高めることができます。正確な現状把握や将来予測が可能になるので、それに続く戦略立案や意思決定の精度も高いものになります。
③顧客満足度の向上
重複や欠損のない顧客データが揃っていれば、顧客一人ひとりに充実したサービスを提供することができます。たとえば、顧客のメールアドレスと誕生日の情報が欠損や重複なく揃っていれば、「誕生日にバースデークーポンを送信する」などの施策が打てるでしょう。表記ゆれのない顧客データが揃っていれば、顧客からの問い合わせに対して、オペレーターは即座に顧客の取引履歴を検索でき、素早く的確なサポートを提供することもできます。
④営業効率の改善
顧客データや見込み客データをクレンジングしておくことで、「同じ相手に何度もアプローチしてしまう」「顧客になり得ない海外在住者にアプローチしてしまう」「すでに顧客になっている相手を見込み客と誤認してアプローチしてしまう」などの無駄な活動を減らすことができます。より成約確度の高い相手に営業リソースを振り分けることができるので、営業効率の改善に寄与します。
⑤マーケティング費用対効果の改善
表記ゆれや重複を排除した顧客データやメールアドレス・LINEアカウント情報などのマーケティングデータが揃っていれば、マーケティングリストから顧客になった人を確実に除外することができます。まだ顧客になっていない相手に対してのみプロモーションを行うことができるようになるため、無駄な費用を削減でき、マーケティングの費用対効果を改善できるでしょう。
データクレンジングの方法は? 8つ手法と具体例
データクレンジングにはいくつかの方法があります。ここでは、その中でももっとも基本的な次の8つの手法について、具体例を交えて解説します。
①データの整形
データセットに不要な文字列や必要のない数値が含まれている場合に、削除したり変換したりすることで、データを処理しやすい形に整える手法です。たとえば、電話番号の後に挿入されている「(直通)」の文字を削除する、メールアドレスが「null」のレコードを削除する、処理しやすいように並べ替えを行う、などが挙げられます。
②データの正規化(表記ゆれの排除)
表記方法が統一されておらず、さまざまな表記が混在している場合に、正規の表記方法を定義し、その表記方法に揃える手法です。「株式会社ABC」「ABC」「㈱ABC」「ABC, Inc.」のように複数の会社名が混在している場合なら、たとえば、「株式会社」「㈱」「, Inc.」などの値を削除して「ABC」に統一する、といった処理を行います。
③重複データの統合
実際には同一の存在を表す情報が、複数のレコードとして重複して存在してしまっている場合に、それらを一つに統合する手法です。名寄せ処理はこの手法に含まれます。
④データ形式の変換
データを適切な形式に変換します。「テキストを数値に変換する」「数値を日付に変換する」などが挙げられます。データの操作性や分析効率を高めるために必要です。
⑤欠損値の補完
欠けているデータを補完したり削除したりする手法です。欠損したままでは正しい分析が行えなかったり、エラーが出てしまいシステムを動かせなかったりする際に必要となります。数値データであれば、中央値や平均値で補完するのが一般的です。
⑥異常値の除去
データセット内の外れ値や異常値を特定し、削除または修正します。少数の外れ値や異常値を含んだまま分析を行うと、実態とはかけ離れた結果が得られてしまうような場合に必要となります。
⑦フィルタリング
不要なデータを除外し、必要なデータのみを抽出する手法です。分析対象を限定することで処理時間を短縮したり、欠損値が含まれるレコードを分析対象から除外したりする際に使います。
⑧エンコーディング
データを処理しやすいよう、質的データを量的データに変換する手法です。たとえば、「赤」「青」「黃」をそれぞれ「0」「1」「2」といった数値に変換する、といった形です。機械学習モデルがデータを理解したり処理したりしやすくするために使います。
データクレンジングのやり方は? 具体的な進め方&5つの手順
実際にデータクレンジングに着手する場合、どのような手順で進めればよいのでしょうか。
ここからは、データクレンジングの具体的なやり方を5つのステップで解説します。
ステップ1:データの現状把握
まずは現状を把握することから始めます。
- どのデータベースにどのようなデータが蓄積されているか
- データの量はどのくらいか
- データのフォーマットは統一されているか
- どのような不整合がどの程度含まれているか
これらの点を把握することで、クレンジングの範囲や方法を決定することができます。
【作業のポイント】
- データのサンプルを抽出し目視で確認する
- 数値データの合計値・平均値・中央値などを算出し、異常値や欠損値の割合を把握する
- データの入力ルールや履歴をチェックする
ステップ2:目的の設定とルールの定義
次にデータクレンジングを行う目的を明確化し、それに基づいてクレンジングの基準を設定します。たとえば、「顧客分析に利用するため、顧客データを最新の状態に更新する」といった目的を設定し、それに合わせて「表記ゆれは〇〇に統一する」「欠損値は〇〇で補完する」といった具体的なルールを定義します。
【作業のポイント】
- なぜデータクレンジングが必要なのかを具体的な目的として言語化する
- クレンジングのルールはデータの利用用途や分析方法を考慮して定義する
- クレンジングのルールはマニュアル・仕様書の形で明文化し関係者間で共有する
ステップ3:クレンジング処理
設定したルールに基づいて、実際にデータをクレンジングしていきましょう。原則として、次の手順で処理を進めます。
- データ整形
- データの正規化(表記ゆれの排除)
- 重複データの統合
- その他の処理(※必要に応じて)
データを整形した後、正規化してから重複を統合する、というのがポイントです。「正規化→重複の統合」の処理は、データクレンジングにおける最重要工程で、これをマスターするだけでかなり幅広いデータ処理に応用することができるようになります。
実際の操作に関しては、どのようなツールでクレンジングを行うかによって異なります。ステップ1〜2の内容に応じて、適切なデータクレンジングツールを活用しましょう。
なお、データクレンジングのツールについては次章「データクレンジングツールは必要? ツールの種類と選び方」で解説します。
【作業のポイント】
- 「正規化→重複の統合→その他の処理」の順序で実行する
- クレンジング前のデータは必ずバックアップを取っておく
- クレンジングの処理内容を記録した上で、必要に応じて元に戻せるようにしておく
- テストデータでクレンジングを実行し、結果を確認してから本番データに適用する
ステップ4:検証と評価
クレンジング後のデータが期待通りの品質になっているか確認しましょう。
表記ゆれ、重複データなど一つずつチェックを行い、必要に応じてクレンジングのルールを修正したり、追加の作業を行ったりします。
【作業のポイント】
- データのサンプルを抽出し目視で確認する
- 数値データの合計値・平均値・中央値などを算出し、クレンジング前後の変化を比較する
ステップ5:継続的なメンテナンス
データは常に変化するため、一度クレンジングすれば終わりではありません。以後、計画的にデータクレンジングを実施し、データ品質を維持する体制を作ってください。
また、新たなデータソースが追加された場合や、データの利用方法が変更された場合などは、その都度、クレンジングのルールを見直すようにしましょう。
【作業のポイント】
- データクレンジングのスケジュールを決め定期的に実施する
- データの更新頻度や変化に合わせてクレンジングのルールを見直す
- データ品質をモニタリングし問題があれば速やかに対応できるようにしておく
データクレンジングツールは必要? ツールの種類と選び方
データクレンジングを行うには、データを操作するためのツールが必要になります。
ですが、データクレンジングのツール選択は非常に難しく、ここで躓いている企業はかなり多いです。
というのも、現在市場には、データクレンジング機能に特化した専用ツール以外に、多種多様の「データクレンジング機能を備えた◯◯システム」が存在しているため、クレンジングしたいデータの種類が違えば、選ぶべき製品のジャンルもまったく異なってしまう、という事情があるからです。
以下の表は、データの種類、用途、企業の特徴別に、どのようなツールが適しているかをまとめたものです。
製品カテゴリ | どんなデータ・どんな用途・どんな企業に適してる? |
---|---|
名寄せツール | SFA / CRM / MAツール等の顧客データを名寄せ・統合したい企業 |
DWH(データウェアハウス) | トランザクションデータを分析しやすい形に整形・加工したい企業 |
iPaaS / EAIツール | それぞれのITツールのデータを変換することで、別々のITツールを連携して動かしたい/複数のITツールのデータを1つに統合したい企業 |
マスターデータ管理(MDM)システム | 複数ITツールのデータを統合・正規化することで、マスターデータとして整備・管理したい企業 |
Excel / スプレッドシート | 一定サイズ以下のデータをコストをかけずにクレンジングしたい企業 |
ETLツール | 大規模データを一括でクレンジングしたい企業 用途を限定せず必要に応じてさまざなデータを柔軟にクレンジングできる仕組みを整えたい企業 |
データクレンジングツールについては、下記の記事で、具体的な選び方やユースケース別のおすすめ製品について詳しく解説しています。気になる人はぜひ参考にしてみてください。
【関連記事】要注意!データクレンジングツールの選び方【おすすめ比較20選】
データクレンジングの成功事例
具体的な事例をもとに、データクレンジングによる課題の解決例を見てみましょう。
約2000万点の商品の出品作業を10分の1に効率化(専門商社)
もともと専門商社として、サプライヤーから仕入れた商品を束ね、顧客に卸売する事業を展開していたA社。さらなる事業拡大を見据えて、新たに自社ECサイトやECモールなど、直販チャネルの拡大を進めていました。
ECカートシステム、Amazonや楽天市場などのECモールに商品を出品するには、各プラットフォームの仕様に合わせた出品用商品データが必要になります。ただA社の場合、商品数が数千万点に及ぶことがネックとなり、商品データが欠損や表記ゆれだらけになっており、精度の高い出品用データを準備できない状態に陥っていました。
一例を挙げると…
- 同一商品なのに異なる商品名で登録されている
- ほとんど同じ商品にも関わらず異なる商品カテゴリが付けられている
- 漢字表記とひらがな表記で2つの商品カテゴリが作られている
- サプライヤーによってカテゴリ名の付け方や分類方法が異なる
そこで行ったのが、商品データのクレンジングです。
まず、サプライヤー各社から受け取った商品データを、自社商品マスタの様式に合わせてクレンジング処理することで、手作業で欠損や表記ゆれの修正をすることなく、自社商品マスタを更新できるようにしました。
その上で、クリーンになった自社商品マスタのデータを、さらに各ECプラットフォームのデータ仕様に合わせてクレンジング処理することで、出品用データも即座に準備できる体制を整備。
結果、掲載商品点数は14万件から2,000万件まで拡大。データ受領から商品掲載までの期間も2週間から1日にまで短縮し、3人いた専任担当者を1人に減らすことに成功しました。
マスターデータのクレンジング、自動化しませんか?
私たちネットレックスでは、強力なデータクレンジング機能を備えたマスターデータ管理ツール「ビズリポ」を開発・提供しています。
ビズリポでは、多種多様なデータを自動変換し、システム上のマスターデータベースに保持。同時に、多種多様な形式・接続方法で外部に配信することができます。
データ変換ルールは、あらかじめ対応済みのシステム・プラットフォーム向けだけでなく、独自に定義することもできるので、どのようなデータ/システムとも連携させることが可能。
月々6万円から利用できるので、他のデータクレンジングツールより、ずっと手軽にお試しいただけます。
下記からお問い合わせいただければ、お客様のユースケースに合った使い方ができるかどうか、実際に操作画面をお見せしながらご説明させていただきます!
少しでも気になった方、いつでもお気軽にお問い合わせください。