Theme Enrichment Analysis: A Statistical Test for Identifying Significantly Enriched Themes in a List of Stories with an Application to the Star Trek Television Franchise

Mikael Onsjö,Paul Sheridan
DOI: https://doi.org/10.16995/dscn.316
2020-01-23
Digital Studies / Le champ numérique
Abstract:In this paper, we describe how the hypergeometric test can be used to determine whether a given theme of interest occurs in a storyset at a frequency more than would be expected by chance. By a storyset we mean simply a list of stories defined according to a common attribute (e.g., author, movement, period). The test works roughly as follows: Given a background storyset and a sub-storyset of interest, the test determines whether a given theme is over-represented in the sub-storyset, based on comparing the proportions of stories in the sub-storyset and background storyset featuring the theme. A storyset is said to be “enriched” for a theme with respect to a particular background storyset, when the theme is identified as being significantly over-represented by the test. Furthermore, we introduce here a toy dataset consisting of 280 manually themed Star Trek television franchise episodes. As a proof of concept, we use the hypergeometric test to analyze the Star Trek stories for enriched themes. The hypergeometric testing approach to theme enrichment analysis is implemented for the Star Trek thematic dataset in the R package stoRy. A related R Shiny web application can be found at https://github.com/theme-ontology/shiny-apps. RésuméDans cet article, nous décrivons la manière dont le test hypergéométrique peut être employé pour déterminer si un thème d’intérêt donné se produit dans une gamme d’histoires à une fréquence qui est plus élevée que ce à quoi on s’attendrait avec le hasard. Par gamme d’histoires, nous entendons simplement une liste d’histoires regroupées selon un attribut commun (par exemple : auteur, mouvement, période). Le test fonctionne à peu près comme ceci : Après avoir reçu une gamme d’histoires en contexte et une sous-gamme d’histoires d’intérêt, le test détermine si le thème donné est surreprésenté dans la sous-gamme d’histoires, en comparant le taux d’histoires dans la sous-gamme d’histoires et dans la gamme d’histoires en contexte qui présentent le thème en question. Une gamme d’histoires est considérée comme « enrichie » pour un thème par rapport à une gamme d’histoires en contexte particulière lorsque le test identifie le thème comme notablement surreprésenté. Par ailleurs, nous présentons ici une base de données de jouets qui se compose de 280 épisodes de la franchise Star Trek qui ont été manuellement organisés par thème. Comme preuve de concept, nous nous servons du test hypergéométrique pour analyser les histoires de Star Trek avec des thèmes enrichis. La méthode de test hypergéométrique pour l’analyse de thèmes enrichis est réalisée pour la base de données thématique de Star Trek dans le logiciel R stoRy. Une application Web similaire de R Shiny se trouve sur le site-Web suivant : https://github.com/theme-ontology/shiny-apps. Mots-clés: analyse d’enrichissement; test hypergéométrique; analyse de surreprésentation; Star Trek; ontologie de thème
What problem does this paper attempt to address?