L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi

Pranita Deshmukh,Nikita Kulkarni,Sanhita Kulkarni,Kareena Manghani,Raviraj Joshi

2024-10-12

Abstract:We present the MahaSUM dataset, a large-scale collection of diverse news articles in Marathi, designed to facilitate the training and evaluation of models for abstractive summarization tasks in Indic languages. The dataset, containing 25k samples, was created by scraping articles from a wide range of online news sources and manually verifying the abstract summaries. Additionally, we train an IndicBART model, a variant of the BART model tailored for Indic languages, using the MahaSUM dataset. We evaluate the performance of our trained models on the task of abstractive summarization and demonstrate their effectiveness in producing high-quality summaries in Marathi. Our work contributes to the advancement of natural language processing research in Indic languages and provides a valuable resource for future research in this area using state-of-the-art models. The dataset and models are shared publicly at <a class="link-external link-https" href="https://github.com/l3cube-pune/MarathiNLP" rel="external noopener nofollow">this https URL</a>

Computation and Language,Machine Learning

What problem does this paper attempt to address?

The paper aims to address the issue of resource scarcity for automatic text summarization in Marathi. Specifically, the authors have created a large-scale dataset named MahaSUM, which includes 25,374 Marathi news articles and their manually annotated summaries, for training and evaluating abstractive text summarization models. Additionally, they trained a variant of the BART model optimized for Indian languages—IndicBART—using this dataset and experimentally validated the model's effectiveness in generating high-quality Marathi summaries. This work not only fills a gap in Marathi natural language processing research but also provides valuable resources for future research in related fields.

L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi

L3Cube-MahaSent-MD: A Multi-domain Marathi Sentiment Analysis Dataset and Transformer Models

L3Cube-MahaNews: News-based Short Text and Long Document Classification Datasets in Marathi

MILDSum: A Novel Benchmark Dataset for Multilingual Summarization of Indian Legal Case Judgments

Abstractive Summarization of Low resourced Nepali language using Multilingual Transformers

Implementing Deep Learning-Based Approaches for Article Summarization in Indian Languages

An Analysis of Abstractive Text Summarization Using Pre-trained Models

San-BERT: Extractive Summarization for Sanskrit Documents using BERT and it's variants

MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English Clinical Queries

NarraSum: A Large-Scale Dataset for Abstractive Narrative Summarization

LawSum: A weakly supervised approach for Indian Legal Document Summarization

Large Scale Multi-Lingual Multi-Modal Summarization Dataset

HeSum: a Novel Dataset for Abstractive Text Summarization in Hebrew

mahaNLP: A Marathi Natural Language Processing Library

L3Cube-MahaSocialNER: A Social Media based Marathi NER Dataset and BERT models

GAE-ISumm: Unsupervised Graph-Based Summarization of Indian Languages

MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

Converging Dimensions: Information Extraction and Summarization through Multisource, Multimodal, and Multilingual Fusion

GUMSum: Multi-Genre Data and Evaluation for English Abstractive Summarization

Indian Legal Text Summarization: A Text Normalisation-based Approach

Abstractive method-based Text Summarization using Bidirectional Long Short-Term Memory and Pointer Generator Mode