共変量シフト適応に基づくrandom forestsの並列分散学習

Abstract

本論文では,MapReduceの枠組を用いて大規模データからrandom forestsを学習する新しい手法を提案する.Random forestsは,多数の決定木によって構成され,かつそれぞれの決定木を独立に学習することができるため,並列分散処理に非常に適した機械学習手法である.しかし,random forestsの学習をナイーブに並列分散化すると,それぞれの決定木を学習するために利用可能な学習データが少量となるため,しばしば過学習を引き起こす.本論文で提案する手法は,この過学習の問題を,以下の三つの要素を導入することで解決する.(1)全てのワーカノードで共通にもつrandom forestsである共有RFを導入する.(2)各ワーカノードのMap処理で共変量シフト適応に基づく転移学習を利用することにより,それぞれのワーカノードが保持する学習データに共有RFを適応させ,高い分類性能を獲得する.(3)転移学習によって得られたrandom forestsをマスタノードに集約するreduce処理で,分類性能の向上に寄与しない決定木を削除することにより,分類性能を大幅に落とすことなく,分類時の計算コストを削減する.実験により,提案手法が分類性能を犠牲にすることなく高速な学習を実現できることを示す.

Publication
電子情報通信学会論文誌

Related