現実世界において、データの欠損はほぼ避けられない問題である。 データ収集に多大な投資をすることで、それを回避できるのは特別な少数者だけです。 この問題は,欠損データの扱い方が調査結果に直接影響し,また時間管理にも関わるため,極めて重要です。 したがって、欠損データを適切に処理することは常に優先されるべきですが、これは見かけよりもずっと難しいことです。 その難しさは、空白という見た目が同じだからといって、すべての欠損データが同じではないこと、そして欠損データの種類によって対処の仕方が異なることを理解したときに生まれます。 この記事では、欠損データの種類を確認し、それらに取り組むための基本的な方法と高度な方法を説明します。

欠損データの種類

単位不応答は、欠損データの行全体を指します。 この例としては、国勢調査に記入しないことを選択した人がいるかもしれません。 ここで、私たちは必ずしもデータで Nans を見ませんが、米国の実際の人口がどのように見えるかを知っているので、欠落している値があることを知っています。

インプット方法には以下が含まれます。

2.Item Non-Response

Item非回答は、ほとんどの人が欠損値として考えているものです。 これは、列の特定のセルが欠落している場合であり、欠落データの量は列の任意の割合で取ることができます (これを視覚化するには、ライブラリ missingno をお勧めします)。 演繹的帰属、平均/中央値/モード帰属、ホットデッキ帰属、モデルベース帰属、多重適切な確率回帰、およびパターン・サブモデル・アプローチ。

データに適した方法を選択することは、直面している項目の非回答のタイプに依存します。

A.MCAR

MCARとは、Missing Completely at Randomの略で、ランダムに欠落することを意味します。 これは、欠損値がターゲット(自分自身を含む)と同様にすべての特徴から独立して欠損している場合に起こります。 これは、欠損値と利用可能なデータとの間に系統的な差がないことを意味します。

B. MAR

MARはMissing at Randomの略である。 これは欠測値がある変数に依存しているが、それ自体からは独立している場合に発生する。 例えば、水質データを収集しているときに、センサーが壊れる日があれば、欠測値はその日に依存することになります。 しかし、それらはそれ自体から完全に独立しています(すなわち、センサーが1日壊れたため、pHが欠落しており、センサーの読み取りが不可能なpHがあったためではありません)。 ここで、我々が持っているか持っていないデータ間の系統的な違いはまだありません。

C.MNAR

MNAR は Missing Not at Random の略で、無作為に見つからないという意味です。 値の欠落が値そのものに依存する場合です。 ここでは、利用可能なデータと欠落しているデータが系統的に異なっている。 例えば、調査において、収入が低い人は、いくら稼いでいるかという質問に答える可能性が低いので、低い値が欠落するのです。

Weight-Class Adjustments

  • 長所: 高速 – データ収集がクラス間で偏りがある場合に非常に便利です。
  • 短所:データの分布に関する事前知識が必要 – データセット内の全てのカテゴリについて何らかのデータが必要 – 異常値の影響を受けやすい – 推定値の分散が大きくなる可能性がある。
  • 取り扱う。 ユニット非応答。

名前が示すように、この方法は、利用可能なデータを取り、母集団の真の分布に基づいて再重み付けします。

例えば、私たちが化粧品会社で、何を製造するか決めたいとします。 簡単のために、女の子はみんなキラキラした仕上げを見たがり、男の子はみんなマットな仕上げを見たがり、そして、奇抜なコスプレイヤーはみんなキラキラを見たがると仮定しましょう。 この場合、私たちの顧客の40%がクィア、10%が男性、60%が女性であるとわかっていますが、これはアンケートに回答した人の割合と一致しません。 例えば、男の子が50人、クィアな人が200人、女の子が10人だったとします。 これは、調査の結果が、私たちの顧客ベースが本当に最も望んでいることを反映していないことを意味し、それぞれの回答のセットを実際の割合に変えることで修正できます。 したがって、女の子が煌めきを求めていると結論づけ、これを60%のデータとしたが、間違っていたとしたら、収益が激減することになるのです。

Deductive Imputation

  • 長所……………………..。 最小限の推論 – 分散やバイアスを導入しない。
  • 短所:コーディングが多い – できないことが多い。
  • 処理する。 あらゆる種類の欠損データ

このタイプのインピュテーションは、おそらく最も明白で問題が少ないですが、データの大きな塊が欠けているのを見ると、多くの人がこのことを忘れてしまいます。 時には、残りの情報から欠損値を推測することができます。これは、個々の推測のセットごとに多くのコーディングを必要としますが、良い習慣です。

たとえば、ペットに関する情報があり、それらの誕生日があるが、いくつかの年齢が欠けている場合、これらを簡単に埋めることができます。 簡単。

  • 短所:ヒストグラムが歪む ・分散を過小評価する。
  • 処理します。 MCARおよびMARアイテムの非応答。
  • これはデータインピュテーションの最も一般的な方法で、すべての欠損値を列の平均値、中央値、最頻値に置き換えるだけです。 これは簡単で速いので急いでいるときには便利ですが、データの統計的性質が変わってしまいます。 これはヒストグラムを歪ませるだけでなく、多数の値を全く同じにしてしまうため、データの分散を過小評価してしまいます(実際には明らかにそうではないのに)。 したがって、この方法は非常に一般的ですが、できるだけ避けるようにしましょう。 これは結果を歪めてしまうので、データが MNAR の場合は決して使用しないでください!

    Hot-Deck Imputation

    • 長所…… 続きを読む 既存のデータを使用します。
    • 欠点:多変数の関係が歪む。
    • 処理します。 MCARおよびMAR項目の無回答。

    この方法もシンプルで、欠損値をその列からランダムな値に置き換えます。 これは単純であるという利点がありますが、多変数の関係が歪んでしまうので、特徴の性質や相互の関係を調べようとする場合は特に注意してください。

    Model-Based Imputation (Regression, Bayesian, etc)

    • Pros: Mean/Median/Mode Imputationより改善される。
    • 短所:ヒストグラムがまだ歪む – 分散を過小評価。
    • 処理します。 MCAR および MAR アイテム非回答

    このメソッドは、ターゲットであるかのように欠損値を予測し、回帰やナイーブベイズなどの異なるモデルを使用することができます。 場合によっては、ランダム性が導入され、わずかな改善を生む(つまり、Stochastic Regression は Regression よりも優れている)。

    Proper Multiple Stochastic Regression

    • 長所:…………………………….(続きを読む 分散が正確である ・よくテストされた方法である。
    • 短所: 手間がかかる – 計算量が多い。
    • 処理します。 MCARおよびMARアイテムの非応答。

    PMSR は、これまで見てきた他の方法よりもはるかに複雑ですが、それでも fancyimpute を使って比較的早く実装することが可能です。 ここでは、Stochastic Regression imputation法を利用しますが、それを「複数回」行います。 これを実現するために、空のセルを含むデータセットのコピーを作成します。 そして、各コピーを独自の確率回帰モデルからの予測で埋めます。したがって、これは各空白セルに小さなヒストグラムを挿入するようなものです。 そして、ほら:私たちは分散の正確さを保っています!

    Pattern Submodel Approach

    • 長所: あらゆる種類の項目不応答を処理できる! – 分散を過小評価しない。
    • 欠点: 十分なテストが行われていない – 労力がかかる。
    • 取り扱い可能。 すべてのタイプの項目非応答(MNARを含む)を扱えます!

    この方法は、利用可能な最も新しく、空想的で、最も適切なインピュテーション技術です。 それは、データを異なる欠落パターンに分割し、値を予測するためにそれぞれにモデルを適合させることから構成されます。 これは仮定を必要とせず、計算効率が高く(労力はかかるかもしれませんが)、MNARデータを扱うことができます。 以下は、欠損パターンの例です。

    なお、紫のパターンは1行だけですので、他の小さな欠損パターンとまとめてオーバーフィッティングしないようにしたいかも知れませんね。

    admin

    コメントを残す

    メールアドレスが公開されることはありません。

    lg