Abstract:Speech summarization techniques take human speech as input and then output an abridged version as text or speech. Speech summarization has applications in many domains from information technology to health care, for example improving speech archives or reducing clinical documentation burden. This scoping review maps close to 2 decades of speech summarization literature, spanning from the early machine learning works up to ensemble models, with no restrictions on the language summarized, research method, or paper type. We reviewed a total of 110 papers out of a set of 188 found through a literature search and extracted speech features used, methods, scope, and training corpora. Most studies employ one of four speech summarization architectures: (1) Sentence extraction and compaction; (2) Feature extraction and classification or rank-based sentence selection; (3) Sentence compression and compression summarization; and (4) Language modelling. We also discuss the strengths and weaknesses of these different methods and speech features. Overall, supervised methods (e.g. Hidden Markov support vector machines, Ranking support vector machines, Conditional random fields) performed better than unsupervised methods. As supervised methods require manually annotated training data which can be costly, there was more interest in unsupervised methods. Recent research into unsupervised methods focusses on extending language modelling, for example by combining Uni-gram modelling with deep neural networks. This review does not include recent work in deep learning.

Supervised Spoken Document Summarization Based On Structured Support Vector Machine With Utterance Clusters As Hidden Variables

Supervised Spoken Document Summarization Jointly Considering Utterance Importance and Redundancy by Structured Support Vector Machine.

Jointly Considering Utterance Importance and Redundancy by Structured Support Vector Machine

Unsupervised Domain Adaptation For Spoken Document Summarization With Structured Support Vector Machine

Exploring hypergraph-based semi-supervised ranking for query-oriented summarization

Automatic Document Summarization Via Deep Neural Networks

Multi-document Summarization Using Support Vector Regression

Utterance-Level Latent Topic Transition Modeling for Spoken Documents and Its Application in Automatic Summarization

Deep Dependency Substructure-Based Learning for Multidocument Summarization.

Multi-document summarization using cluster-based link analysis.

A Supervised Aggregation Framework for Multi-Document Summarization.

CollabSum: exploiting multiple document clustering for collaborative single document summarizations.

Clustering Sentences with Density Peaks for Multi-document Summarization

Hierarchical Summarization for Longform Spoken Dialog

Sentences clustering based automatic summarization

Query-oriented unsupervised multi-document summarization via deep learning model

ESSumm: Extractive Speech Summarization from Untranscribed Meeting

Symbolic and Statistical Learning Approaches to Speech Summarization: A Scoping Review

Multi-Document Summarization Based On Two-Level Sparse Representation Model

SgSum: Transforming Multi-document Summarization into Sub-graph Selection

Discourse-Aware Unsupervised Summarization of Long Scientific Documents