"MapReduce"

共変量シフト適応に基づくrandom forestsの並列分散学習

本論文では,MapReduceの枠組を用いて大規模データからrandom forestsを学習する新しい手法を提案する.Random forestsは,多数の決定木によって構成され,かつそれぞれの決定木を独立に学習することができるため,並列分散処理に非常に適した機械学習手法である.しかし,random forestsの学習をナイーブに並列分散化すると,それぞれの決定木を学習するために利用可能な学習データが少量となるため,しばしば過学習を引き起こす.本論文で提案する手法は,この過学習の問題を,以下 …

Distributed forests for MapReduce-based machine learning

This paper proposes a novel method for training random forests with big data on MapReduce clusters. Random forests are well suited for parallel distributed systems, since they are composed of multiple decision trees and every decision tree can be …