Study/DNN/Algorithm/ModelCompression
Last-modified: Thu, 27 Feb 2020 10:30:27 JST (1787d)
概要
- DNNモデルを極力精度を維持しつつ軽量化&高速化する技術
手法
- parameter pruning and sharing
パラメータの情報量を削除する- Quantization and Binarization
weightのビット数を削減する - Pruning and Sharing
冗長な重みを刈り取り、重みパラメータを共有する - Designing Structural Matrix
mxnより少ないパラメータで記述可能なmxnの構造化行列を見つける
- Quantization and Binarization
- low-rank factorization
畳み込み層や全結合層を低ランク近似する - transfered/compact convolutional filters
畳み込み層をよりコンパクトなフィルタに置き換える - knowledge distillation
複雑なモデルを基に、単純なモデルで学習させる