Abstract:Similarity search finds objects that are similar to a given query object based on a similarity metric. As the amount and variety of data continue to grow, similarity search in metric spaces has gained significant attention. Metric spaces can accommodate any type of data and support flexible distance metrics, making similarity search in metric spaces beneficial for many real-world applications, such as multimedia retrieval, personalized recommendation, trajectory analytics, data mining, decision planning, and distributed servers. However, existing studies mostly focus on indexing metric spaces on a single machine, which faces efficiency and scalability limitations with increasing data volume and query amount. Recent advancements in similarity search turn towards distributed methods, while they face challenges including inefficient local data management, unbalanced workload, and low concurrent search efficiency. To this end, we propose DIMS, an efficient Distributed Index for similarity search in Metric Spaces. First, we design a novel three-stage heterogeneous partition to achieve workload balance. Then, we present an effective three-stage indexing structure to efficiently manage objects. We also develop concurrent search methods with filtering and validation techniques that support efficient distributed similarity search. Additionally, we devise a cost-based optimization model to balance communication and computation cost. Extensive experiments demonstrate that DIMS significantly outperforms existing distributed similarity search approaches.

Novel High-Dimensional Indexing Structure Based on Dual-Distance Metric

Indexing High-Dimensional Data in Dual Distance Spaces

Indexing high-dimensional data in dual distance spaces: a symmetrical encoding approach

An Encoding-Based Dual Distance Tree High-Dimensional Index

Composite Distance Transformation for Indexing and K -Nearest-neighbor Searching in High-Dimensional Spaces

Review of High Dimensional Index Structures in Metric Spaces

A Clustered Dwarf Structure to Speed Up Queries on Data Cubes

DForest: A Minimal Dimensionality-Aware Indexing for High-Dimensional Exact Similarity Search

DESIRE: An Efficient Dynamic Cluster-based Forest Indexing for Similarity Search in Multi-Metric Spaces

Exploring Bit-Difference for Approximate KNN Search in High-Dimensional Databases

iDistance: An adaptive B+-tree based indexing method for nearest neighbor search

Indexing high-dimensional data for efficient in-memory similarity search

Fast answering k-nearest-neighbor queries over large image databases using dual distance transformation

DIMS: Distributed Index for Similarity Search in Metric Spaces

Angle-Tree: A New Index Structure for High-Dimensional Point Data

Towards Making High Dimensional Distance Metric Learning Practical

Enhanced Locality Sensitive Clustering in High Dimensional Space

A High-Dimensional Indexing Model for Multi-Source Remote Sensing Big Data

LuSH: A Generic High-Dimensional Index Framework.

DIDS: Double Indices and Double Summarizations for Fast Similarity Search

Contorting High Dimensional Data for Efficient Main Memory KNN Processing