Abstract:Context: Code summarization refers to a task that automatically generates a natural language description of a code snippet to facilitate code comprehension. Existing methods have achieved satisfactory results by incorporating information retrieval into generative deep-learning models for reusing summaries of existing code. However, most of these existing methods employed non-learnable generic retrieval methods for content-based retrieval, resulting in a lack of diversity in the retrieved results during training, thereby making the model over-reliant on retrieved results and reducing the generative model’s ability to generalize to unknown samples. Objective: To address this issue, this paper introduces CMR-Sum: a novel Cross-Modal Retrieval-enhanced code Summarization framework based on joint learning for generation and retrieval tasks, where both two tasks are allowed to be optimized simultaneously. Method: Specifically, we use a cross-modal retrieval module to dynamically alter retrieval results during training, which enhances the diversity of the retrieved results and maintains a relative balance between the two tasks. Furthermore, in the summary generation phase, we employ a cross-attention mechanism to generate code summaries based on the alignment between retrieved and generated summaries. We conducted experiments on three real-world datasets, comparing the performance of our method with baseline models. Additionally, we performed extensive qualitative analysis. Result: Results from qualitative and quantitative experiments indicate that our approach effectively enhances the performance of code summarization. Our method outperforms both the generation-based and the retrieval-enhanced baselines. Further ablation experiments demonstrate the effectiveness of each component of our method. Results from sensitivity analysis experiments suggest that our approach achieves good performance without requiring extensive hyper-parameter search. Conclusion: The direction of utilizing retrieval-enhanced generation tasks shows great potential. It is essential to increase the diversity of retrieval results during the training process, which is crucial for improving the generality and the performance of the model.

Cross-Domain Document Summarization Model via Two-Stage Curriculum Learning

CDEvalSumm: an Empirical Study of Cross-Dataset Evaluation for Neural Summarization Systems

Curriculum-Guided Abstractive Summarization

Cross-Modal Retrieval-Enhanced Code Summarization Based on Joint Learning for Retrieval and Generation

Generating Multiple-Length Summaries via Reinforcement Learning for Unsupervised Sentence Summarization

Improving Multi-Stage Long Document Summarization with Enhanced Coarse Summarizer

Cross-language Document Summarization Via Extraction and Ranking of Multiple Summaries

Exploring Domain Shift in Extractive Text Summarization

Summary-Sentence Level Hierarchical Supervision for Re-Ranking Model of Two-Stage Abstractive Summarization Framework

DomainSum: A Hierarchical Benchmark for Fine-Grained Domain Shift in Abstractive Text Summarization

Multi-Document Summarization via Discriminative Summary Reranking

Multisumm: Towards A Unified Model For Multi-Lingual Abstractive Summarization

Enhancing Biomedical Text Summarization and Question-Answering: On the Utility of Domain-Specific Pre-Training

DocSum: Domain-Adaptive Pre-training for Document Abstractive Summarization

SKT5SciSumm -- Revisiting Extractive-Generative Approach for Multi-Document Scientific Summarization

Abstractive Summarization for Low Resource Data using Domain Transfer and Data Synthesis

Multi-Dimensional Optimization for Text Summarization via Reinforcement Learning

Large-Scale Multi-Document Summarization with Information Extraction and Compression

Do Multi-Document Summarization Models Synthesize?

Training Dynamics for Text Summarization Models

Domain Adaptation and Summary Distillation for Unsupervised Query Focused Summarization