研究会
第6回研究会「ビン型データ構造を持つノンパラメトリック確率密度関数の推定に関する研究(齊藤実祥特任助教)」を実施しました。
第6回デジタル社会構造・変革研究部門研究会では齊藤実祥特任助教が「ビン型データ構造を持つノンパラメトリック確率密度関数の推定に関する研究」を報告しました。
世の中の統計データは秘匿化のために区間単位でデータが集計されることがあります(例:国勢調査における1歳単位や5歳単位、都道府県・市区町村単位など)が、区間単位での集計によって生データが有する構造が崩れてしまうため、本研究では隣り合う区間を滑らかに線で結ぶ「連続性」、区間内に平均や分散などデータの偏り度合を示す「モーメント」の2つの条件を考慮した「S-PH(Smoothed – Polynomial Histogram)」という近似手法を提案し、その理論的な推定精度についても証明しました。本手法を用いると膨大なデータ数を有するビッグデータもわずかなデータ区間に分割することで精度よく近似できる(例えば10万個のデータも3つの区間のみで充分に元データを推定できる)ため、常時蓄積されるビッグデータ社会において効率よくデータの抽出及び削減を行える有効な手法の1つであると考えます。