Abstract:For imbalanced data, classification efficiency degrades significantly due to the missing information for the positive class, and existing sampling schemes do not consider the distributions of samples. Additionally, the global parameters of fuzzy neighborhoods are set manually. These defects affect the effectiveness of classifier. To address these problems, we offer an adaptive fuzzy multi-neighborhood feature selection methodology with intercluster distance-based hybrid sampling for class-imbalanced data. First, the number of clusters can be defined in terms of the number of samples in the negative or positive class. The initial centers of the clusters are determined according to the number of clusters, and the dissimilarity and similarity measures are calculated by using the intercluster distances between samples. Then, the cluster center, fuzzy membership matrix, and intercluster distance are studied, and then the optimization objective function is designed. The hybrid sampling scheme can be used to combine the generated positive class samples and negative class samples and obtain a class-balanced system. Second, according to the sample distribution, the standard deviation and a set of adaptive fuzzy multi-neighborhood radii are designed. A fuzzy multi-neighborhood similarity relation is defined by introducing a Gaussian kernel model to obtain a fuzzy multi-neighborhood granule, and an improved fuzzy multi-neighborhood rough set model is provided. Uncertain measures of fuzzy neighborhood systems are evaluated by the positive region and dependency. Third, by integrating fuzzy dependence with fuzzy complementary condition entropy, fuzzy multi-neighborhood complementary mutual information is provided on two viewpoints of algebra and information. Finally, a heuristic feature subset selection methodology for imbalanced classification with hybrid sampling using fuzzy c-means clustering is studied to obtain this excellent set of features. Experiments on 26 imbalanced datasets show the effectiveness of our designed algorithm.

A hybrid imbalanced classification model based on data density

Imbalanced Data Classification Algorithm Based on Integrated Sampling and Ensemble Learning.

Hybrid SVM algorithm oriented to classifying imbalanced datasets

Resampling approach for imbalanced data classification based on class instance density per feature value intervals

A hybrid ensemble and evolutionary algorithm for imbalanced classification and its application on bioinformatics

An ensemble imbalanced classification method based on model dynamic selection driven by data partition hybrid sampling

A New Classifier for Imbalanced Data Based on a Generalized Density Ratio Model

A Density-based Under-sampling Algorithm for Imbalance Classification

A cluster impurity-based hybrid resampling for imbalanced classification problems

Cost-sensitive hierarchical classification for imbalance classes

Density-Based Discriminative Nonnegative Representation Model for Imbalanced Classification

A hybrid sampling method for highly imbalanced and overlapped data classification with complex distribution

The Ensemble of Density-Sensitive SVDD Classifier Based on Maximum Soft Margin for Imbalanced Datasets.

A Classfication Method For Imbalance Data Set Based on Kernel SMOTE

A weighted hybrid ensemble method for classifying imbalanced data

Improved SVM algorithm for imbalanced dataset classification

Adaptive Fuzzy Multi-Neighborhood Feature Selection with Hybrid Sampling and Its Application for Class-Imbalanced Data

Relative Density-Based Intuitionistic Fuzzy SVM for Class Imbalance Learning

A hybrid data-level ensemble to enable learning from highly imbalanced dataset

An oversampling FCM-KSMOTE algorithm for imbalanced data classification

Under-sampling class imbalanced datasets by combining clustering analysis and instance selection