"メディア認識理解"

音や映像から「部品」を取り出すメディアシーン学習技術