AIのチップ(?)のまとめ

半導体回路の重要国際会議

から、チップレベルで実装されている深層学習アクセラレータの研究を抜粋した個人的なまとめ。 時折更新する。
産業的な要請 (?) から、多くはエッジデバイスにおける推論処理にフォーカスしている。
アプリケーションへの特化具合はものによりけり。

2018年におけるトレンド

  • 量子化
    重みや活性化関数のバイナリ化、3値化、対数近似 。
    専用ハードウェアの実装においては、特にメモリ使用量や演算器の削減効果が大きい。

  • Computing in-memory
    メモリと演算コアの間のデータ転送が性能のボトルネックになり易いため、 メモリ (主にSRAM) の内部や近傍で計算をおこなう構成が流行している。

  • アナログ演算
    差別化や演算効率化 (?) のためにアナログ的な演算手法を取り入れた研究が散見される。

関連分野、他に見ておくべき論文

  • アーキテクチャ
    ISCA, MICRO, HPCA, ASPLOSといった重要会議から演算コアやネットワークのアーキテクチャを引用した論文が多い。

  • コンピュータビジョン
    深層学習と親和性が高く、なおかつエッジデバイス向けのアプリケーションが多いため、 CVPR等で発表されたアプリケーションを引用して、専用ハードウェアによる低消費電力化・高速化を謳う論文が多々ある。

  • FPGA
    FPGA, FCCM, FPLといった重要会議でFPGA上への実装が報告されており、これらを参考に書かれた論文が多数ある。

汎用アクセラレータ

  • Eyeriss: A Spatial Architecture for Energy-Efficient Dataflow for Convolutional Neural Networks (MIT, NVIDIA, ISSCC 2016)
    • メッシュ型ネットワークで接続された積和演算コアとデータフローアーキテクチャで畳み込み演算を効率化。
  • EIE: Efficient Inference Engine on Compressed Deep Neural Network (Stanford University, Tsinghua University, ISSCC 2016)
    • スパース性を利用したチップ内SRAMへの効率的なデータ格納で性能改善。
  • A 1.42TOPS/W Deep Convolutional Neural Network Recognition Processor for Intelligent IoE Systems (KAIST, ISSCC 2016)
  • A 0.3‐2.6 TOPS/W Precision‐Scalable Processor for Real‐Time Large‐Scale ConvNets (KU Leuven, VLSI Cir. 2016)
  • A 1.40mm2 141mW 898GOPS Sparse Neuromorphic Processor in 40nm CMOS (University of Michigan, VLSI Cir. 2016)
  • Time-domain neural network: A 48.5 TSOp/s/W neuromorphic chip optimized for deep learning and CMOS technology (Toshiba, A-SSCC 2016)
    • 2信号間の時間的な遅延を利用してアナログ演算。遅延量は抵抗で調整。将来的な積層ReRAMの利用を想定。
  • DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for GeneralPurpose Deep Neural Networks (KAIST, ISSCC 2017)
    • 畳み込み演算に特化したユニットと、全結合層+RNN演算に特化したユニットのハイブリッド型。
  • ENVISION: A 0.26-to-10TOPS/W Subword-Parallel Computational Accuracy-Voltage-Frequency-Scalable Convolutional Neural Network Processor in 28nm FDSOI (KU Leuven, ISSCC 2017)
  • A 3.43TOPS/W 48.9pJ/Pixel 50.1nJ/Classification 512 Analog Neuron Sparse Coding Neural Network with On-Chip Learning and Classification in 40nm CMOS (University of Michigan, Intel, VLSI Cir. 2017)
  • BRein Memory: A 13-Layer 4.2 K Neuron/0.8 M Synapse Binary/Ternary Reconfigurable In-Memory Deep Neural Network Accelerator in 65 nm CMOS (Hokkaido University, TiTech, Keio University, VLSI Cir. 2017)
    • 2値化・3値化が可能で、活性化関数もバイナリ。演算はSRAMの近くで効率よくおこなう。
  • A 1.06-To-5.09 TOPS/W Reconfigurable Hybrid-Neural-Network Processor for Deep Learning Applications (Tsinghua University, VLSI Cir. 2017)
  • A Shift Towards Edge Machine-Learning Processing (Google, ISSCC 2018)
  • QUEST: A 7.49TOPS Multi-Purpose Log-Quantized DNN Inference Engine Stacked on 96MB 3D SRAM Using Inductive-Coupling Technology in 40nm CMOS (Hokkaido University, Keio University, ISSCC 2018)
    • 対数量子化、三次元積層のSRAMチップで大容量化と転送速度向上を図っている。
  • UNPU: A 50.6TOPS/W Unified Deep Neural Network Accelerator with 1b-to-16b Fully-Variable Weight Bit-Precision (KAIST, ISSCC 2018)
    • 1bitから16bitまで自由に精度調整可能。ユニファイド型。ネットワーク構成も自由度が高い。
  • Conv-RAM: An Energy-Efficient SRAM with Embedded Convolution Computation for Low-Power CNN-Based Machine Learning Applications (MIT, ISSCC 2018)
    • バイナリ重みの畳み込み2層をインメモリ計算。
  • A 65nm 1Mb Nonvolatile Computing-in-Memory ReRAM Macro with Sub-16ns Multiply-and-Accumulate for Binary DNN AI Edge Processors (NTHU, ISSCC 2018)
  • A 65nm 4Kb Algorithm-Dependent Computing-in-Memory SRAM Unit Macro with 2.3ns and 55.8TOPS/W Fully Parallel Product-Sum Operation for Binary DNN Edge Processors (NTHU, TSMC, UESTC, ASU, ISSCC 2018)
  • STICKER: A 0.41‐62.1 TOPS/W 8bit Neural Network Processor with Multi‐Sparsity Compatible Convolution Arrays and Online Tuning Acceleration for Fully Connected Layers (THU, VLSI Cir. 2018)

特定アプリ向けアクセラレータ

  • A 126.1mW Real-Time Natural UI/UX Processor with Embedded Deep Learning Core for Low-Power Smart Glasses Systems (KAIST, ISSCC 2016)
    • 音声と手形状認識によるマルチモーダルなUIを実現。スマートグラス向け。
  • A 502GOPS and 0.984mW Dual-Mode ADAS SoC with RNN-FIS Engine for Intention Prediction in Automotive Black-Box System (KAIST, ISSCC 2016)
  • A 0.55V 1.1mW Artificial-Intelligence Processor with PVT Compensation for Micro Robots (KAIST, ISSCC 2016)
  • A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector (KAIST, ISSCC 2017)
    • ウェアラブル常時稼動顔認識デバイス向け。Haar-Like顔検出器チップと、CNN顔分類プロセッサチップを混載。
  • A 9.02mW CNN-stereo-based real-time 3D hand-gesture recognition processor for smart mobile devices (Georgia Tech, ISSCC 2018)
    • HMD向け3Dハンドジェスチャ認識。ステレオマッチング。
  • A 55nm Time-Domain Mixed-Signal Neuromorphic Accelerator with Stochastic Synapses and Embedded Reinforcement Learning for Autonomous Micro-Robots (Georgia Tech, ISSCC 2018)
    • 自律動作のナノロボット向け。強化学習プロセッサ。
  • An Always-On 3.8μJ/86% CIFAR-10 Mixed-Signal Binary CNN Processor with All Memory on Chip in 28nm CMOS (Stanford, KU Leuven, ISSCC 2018)
  • A 1μW Voice Activity Detector Using Analog Feature Extraction and Digital Deep Neural Network (Columbia University, ISSCC 2018)
  • B‐Face: 0.2 mW CNN‐Based Face Recognition Processor with Face Alignment for Mobile User Identification (KAIST, VLSI Cir. 2018)
  • PhaseMAC: A 14 TOPS/W 8bit GRO based Phase Domain MAC Circuit for In‐Sensor‐Computed Deep Learning Accelerators (Toshiba, VLSI Cir. 2018)