Abstract:We propose a technique for producing'visual explanations' for decisions from a large class of Convolutional Neural Network (CNN)-based models, making them more transparent. Our approach-Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept (say logits for'dog'or even a caption), flowing into the final convolutional layer to produce a coarse localization map highlighting the important regions in the image for predicting the concept. Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families:(1) CNNs with fully-connected layers (eg VGG),(2) CNNs used for structured outputs (eg captioning),(3) CNNs used in tasks with multi-modal inputs (eg VQA) or reinforcement learning, and needs no architectural changes or re-training. We combine Grad-CAM with existing fine-grained visualizations to create a high-resolution class-discriminative visualization and apply it to image classification, image captioning, and visual question answering (VQA) models, including ResNet-based architectures. In the context of image classification models, our visualizations (a) lend insights into failure modes of these models (showing that seemingly unreasonable predictions have reasonable explanations),(b) outperform previous methods on the ILSVRC-15 weakly-supervised localization task,(c) are more faithful to the underlying model, and (d) help achieve model generalization by identifying dataset bias. For image captioning and VQA, our visualizations show that even non-attention based models can localize inputs. Finally, we design and conduct human studies to measure if Grad-CAM …

Grad-CAM: visual explanations from deep networks via gradient-based localization

Grad-cam: Visual explanations from deep networks via gradient-based localization

Statistic-CAM: A Gradient-Free Visual Explanations for Deep Convolutional Network

Grad-CAM: Why did you say that?

Exclusive Feature Constrained Class Activation Mapping for Better Visual Explanation.

Grad-CAM: Visual Explanations from Deep Networks via Gradient-Basde Localization

Grad-CAM: Visual explanations from deep networks via gradient-based localization. arXiv 2016

Grad-cam: Why did you say that? visual explanations from deep networks via gradient-based localization

Integrated Grad-CAM: Sensitivity-Aware Visual Explanation of Deep Convolutional Networks via Integrated Gradient-Based Scoring

Recipro-CAM: Fast gradient-free visual explanations for convolutional neural networks

Grad++ScoreCAM: Enhancing Visual Explanations of Deep Convolutional Networks Using Incremented Gradient and Score- Weighted Methods

Score-CAM: Score-Weighted Visual Explanations for Convolutional Neural Networks

Generalizing Adversarial Explanations with Grad-CAM

Cross-CAM: Focused Visual Explanations for Deep Convolutional Networks Via Training-Set Tracing

Eigen-CAM: Visual Explanations for Deep Convolutional Neural Networks

Salience-CAM: Visual Explanations from Convolutional Neural Networks Via Salience Score

Adapting Grad-CAM for Embedding Networks

Shap-CAM: Visual Explanations for Convolutional Neural Networks Based on Shapley Value.

Enhancing Explainable AI: A Hybrid Approach Combining GradCAM and LRP for CNN Interpretability

Is Grad-CAM Explainable in Medical Images?