Abstract:With the rise of multimedia content on the internet, Multimodal Summarization has become a challenging task to help individuals grasp vital information fast. However, previous methods mainly learn the different modalities indistinguishably, which is ineffective in capturing the fine-grained content and hierarchical correlation in multimodal articles. To resolve the present problem, this paper proposes a Multi-task Hierarchical Heterogeneous Fusion Framework (MHHF) to learn the hierarchical structure and heterogeneous correlation existing in the multimodal data. Specifically, we propose a Hierarchical Cross-modality Feature Fusion module to progressively explore the different levels of interaction from object-word features to sentence-scene features. Besides, a Multi-task Cross-modality Decoder is constructed to coalesce different levels of features with three sub-tasks, i.e., ive Summary Generation, Relevant Image Selection, and Extractive Summary Generation. We conduct extensive experiments on three datasets, i.e., MHHF-dataset, CNN, and Daily Mail, which consist of 62880, 1970, and 203 multimodal articles, respectively. Our method achieves state-of-the-art performance on most metrics. Moreover, MHHF consistently outperforms the baseline model on MHHF-dataset by 5.88%, 4.41%, and 0.4% of Rouge-1, Rouge-2, and Rouge-L for the abstractive summarization task. Ablation studies show that both Hierarchical Cross-modality Feature Fusion and Multi-task Cross-modality Decoder can improve the quality of multimodal summarization output. Further diversity analysis and human evaluation also demonstrate that MHHF can generate more informative and fluent summaries.

A study on cross-language text summarization using supervised methods

GA, MR, FFNN, PNN and GMM Based Models for Automatic Text Summarization

Multisumm: Towards A Unified Model For Multi-Lingual Abstractive Summarization

A new re-ranking method for generic chinese text summarization and its evaluation

Cross-language document summarization based on machine translation quality prediction

Cross-language Document Summarization Via Extraction and Ranking of Multiple Summaries

Unified Training for Cross-Lingual Abstractive Summarization by Aligning Parallel Machine Translation Pairs

Searching for Effective Multilingual Fine-Tuning Methods: A Case Study in Summarization

Using Bilingual Information for Cross-Language Document Summarization

MHMS: Multimodal Hierarchical Multimedia Summarization

Automatic Text Summarization Method Based on Improved TextRank Algorithm and K-Means Clustering

Heterogeneous-Length Text Topic Modeling for Reader-Aware Multi-Document Summarization.

Towards Unifying Multi-Lingual and Cross-Lingual Summarization

Text Summarization Using Large Language Models: A Comparative Study of MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models

Revisiting Cross-Lingual Summarization: A Corpus-based Study and A New Benchmark with Improved Annotation

Multi-task Hierarchical Heterogeneous Fusion Framework for multimodal summarization

SummScore: A Comprehensive Evaluation Metric for Summary Quality Based on Cross-Encoder

Contrastive Aligned Joint Learning for Multilingual Summarization.

A Mixed-Language Multi-Document News Summarization Dataset and a Graphs-Based Extract-Generate Model

What Have We Achieved on Text Summarization?

An Unsupervised Extractive Summarization Method Based on Multi-Round Computation