OOIR: Observatory of International Research

Papers

(The TQCC of IEEE Transactions on Parallel and Distributed Systems is 14. The table below lists those papers that are above that threshold based on CrossRef citation counts [max. 250 papers]. The publications cover those that have been published in the past four years, i.e., from 2022-05-01 to 2026-05-01.)

Article	Citations
Critique of “MemXCT: Memory-Centric X-Ray CT Reconstruction With Massive Parallelization” by SCC Team From Tsinghua University	204
Optimizing Data Locality by Integrating Intermediate Data Partitioning and Reduce Task Scheduling in Spark Framework	192
Online Container Caching for IoT Data Processing in Serverless Edge Computing	140
ComStar: Compression-Aware Stream Query for Heterogeneous Hybrid Architecture	138
H5Intent: Autotuning HDF5 With User Intent	134
Enabling Large Scale Simulations for Particle Accelerators	129
Design and Implementation of 2D Convolution on x86/x64 Processors	123
A Memory-Constraint-Aware List Scheduling Algorithm for Memory-Constraint Heterogeneous Muti-Processor System	112
Federated Learning With Nesterov Accelerated Gradient	112
Bal-DGCN: A Hardware Acceleration Framework for Balanced Computational Efficiency in Dynamic Graph Convolutional Networks (DGCNs)	111
Decentralized Federated Learning with Period Gradient Tracking over Time-Varying Networks	110
On the Message Complexity of Fault-Tolerant Computation: Leader Election and Agreement	106
A Point Cloud Video Recognition Acceleration Framework Based on Tempo-Spatial Information	101
mtGEMM: An Efficient GEMM Library for Modern Multi-Core DSPs	99
Jdebug: A Fast, Non-Intrusive and Scalable Fault Locating Tool for Ten-Million-Scale Parallel Applications	94
Large-Scale Neural Network Quantum States Calculation for Quantum Chemistry on a New Sunway Supercomputer	94
IRHunter: Universal Detection of Instruction Reordering Vulnerabilities for Enhanced Concurrency in Distributed and Parallel Systems	88
Mapping Large-Scale Spiking Neural Network on Arbitrary Meshed Neuromorphic Hardware	87
Fully Decentralized Data Distribution for Large-Scale HPC Systems	85
QoS-Aware Scheduling of Remote Rendering for Interactive Multimedia Applications in Edge Computing	85
EdgeTB: A Hybrid Testbed for Distributed Machine Learning at the Edge With High Fidelity	84
Distributed Task Processing Platform for Infrastructure-Less IoT Networks: A Multi-Dimensional Optimization Approach	84
An Efficient Bottleneck Planes Exclusion Method for Reconfiguring 3D VLSI Arrays	82
fPIM: A Holistic Design to Optimize PIM Data Flow for High Execution Efficiency	80
GeoScale: Microservice Autoscaling With Cost Budget in Geo-Distributed Edge Clouds	78

STR: Hybrid Tensor Re-Generation to Break Memory Wall for DNN Training	75
AWB+-Tree: A Novel Width-Based Index Structure Supporting Hybrid Matching for Large-Scale Content-Based Pub/Sub Systems	72
HRCM: A Hierarchical Regularizing Mechanism for Sparse and Imbalanced Communication in Whole Human Brain Simulations	71
Replicated Versioned Data Structures for Wide-Area Distributed Systems	69
RHINO: An Efficient Serverless Container System for Small-Scale HPC Applications	68
AESM² Attribute-Based Encrypted Search for Multi-Owner and Multi-User Distributed Systems	67
Accelerating Data Delivery of Latency-Sensitive Applications in Container Overlay Network	66
On the Performance of SMASH: A Non-Preemptive Window-Based Scheduler for Multiserver Jobs	66
Simple, Fast and Widely Applicable Concurrent Memory Reclamation via Neutralization	64
Asynchronous Algorithms for Decentralized Resource Allocation Over Directed Networks	63
Joint Model Pruning and Topology Construction for Accelerating Decentralized Machine Learning	63
Agile Cache Replacement in Edge Computing via Offline-Online Deep Reinforcement Learning	62
Tag-Sharer-Fusion Directory: A Scalable Coherence Directory With Flexible Entry Formats	61
BARM: A Batch-Aware Resource Manager for Boosting Multiple Neural Networks Inference on GPUs With Memory Oversubscription	61
Scalable Hybrid Learning Techniques for Scientific Data Compression	60
Efficient and Automated Deployment Architecture for OpenStack in TianHe SuperComputing Environment	60
PHIDE: A Parallel Hybrid Direct–Iterative Eigensolver for Hermitian Eigenvalue Problems	59
Securing Fine-Grained Data Sharing and Erasure in Outsourced Storage Systems	58
HarmonyCache: Scalable In-Network Cache With Read-Write Separation	58
Building Accurate and Interpretable Online Classifiers on Edge Devices	58
Graph-Centric Performance Analysis for Large-Scale Parallel Applications	58
A Novel Parallel Algorithm for Sparse Tensor Matrix Chain Multiplication via TCU-Acceleration	55
DyLaClass: Dynamic Labeling Based Classification for Optimal Sparse Matrix Format Selection in Accelerating SpMV	55
Multi-Swarm Co-Evolution Based Hybrid Intelligent Optimization for Bi-Objective Multi-Workflow Scheduling in the Cloud	54
PreTrans: Enabling Efficient CGRA Multi-Task Context Switch Through Config Pre-Mapping and Data Transceiving	54
Improving the Scalability of GPU Synchronization Primitives	54
High-Level Data Abstraction and Elastic Data Caching for Data-Intensive AI Applications on Cloud-Native Platforms	53
GreenFlow: A Carbon-Efficient Scheduler for Deep Learning Workloads	52
LB-Chain: Load-Balanced and Low-Latency Blockchain Sharding via Account Migration	51
Cannikin: No Lagger of SLO in Concurrent Multiple LoRA LLM Serving	49
Coordinating Fast Concurrency Adapting With Autoscaling for SLO-Oriented Web Applications	49
CiMBA: Accelerating Genome Sequencing Through On-Device Basecalling via Compute-in-Memory	49
AIDTN: Towards a Real-Time AI Optimized DTN System With NVMeoF	48
SSRAID: A Stripe-Queued and Stripe-Threaded Merging I/O Strategy to Improve Write Performance of Serial Interface SSD RAID	48
Accelerating Sparse Tensor Decomposition Using Adaptive Linearized Representation	48
DynPipe: Toward Dynamic End-to-End Pipeline Parallelism for Interference-Aware DNN Training	47
HashCache: Accelerating Serverless Computing by Skipping Duplicated Function Execution	47
Two-Timescale Joint Optimization of Task Scheduling and Resource Scaling in Multi-Data Center System Based on Multi-Agent Deep Reinforcement Learning	46
Trusted Model Aggregation With Zero-Knowledge Proofs in Federated Learning	46
cuFastTuckerPlusTC: A Stochastic Parallel Sparse FastTucker Decomposition Using GPU Tensor Cores	46
Critique of “MemXCT: Memory-Centric X-Ray CT Reconstruction With Massive Parallelization” by SCC Team From the University of Texas at Austin	45
2024 Reviewers List^*	44
Decentralised Data Quality Control in Ground Truth Production for Autonomic Decisions	44
Libfork: Portable Continuation-Stealing With Stackless Coroutines	43
Distributed Discrete Morse Sandwich: Efficient Computation of Persistence Diagrams for Massive Scalar Data	43
Sparse Stream Semantic Registers: A Lightweight ISA Extension Accelerating General Sparse Linear Algebra	43
Congestion Control for Datacenter Networks: A Control-Theoretic Approach	42
Coarse Grained FPGA Overlay for Rapid Just-In-Time Accelerator Compilation	42
A Lightweight and Fine-Grained Ciphertext Search Scheme for Big Data Assisted by Proxy Servers	42
iBalancer: Load-Aware in-Server Flow Scheduling for Sub-Millisecond Tail Latency	41

Floe: Federated Specialization for Real-Time LLM–SLM Inference	40
Fine-Grained Performance and Cost Modeling and Optimization for FaaS Applications	39
Bayesian-Driven Automated Scaling in Stream Computing With Multiple QoS Targets	39
SEMSO: A Secure and Efficient Multi-Data Source Blockchain Oracle	38
Hierarchical Federated Learning With Momentum Acceleration in Multi-Tier Networks	38
Flexible and Efficient Memory Swapping Across Mobile Devices With LegoSwap	37
Static Algorithm Allocation with Duplication in Robotic Network Cloud Systems	37
Critique of “A Parallel Framework for Constraint-Based Bayesian Network Learning via Markov Blanket Discovery” by SCC Team From Tsinghua University	37
Cost-Efficient Server Configuration and Placement for Mobile Edge Computing	36
DePo: Dynamically Offload Expensive Event Processing to the Edge of Cyber-Physical Systems	36
A Survey of Storage Systems in the RDMA Era	35
Accelerating Convolutional Neural Networks by Exploiting the Sparsity of Output Activation	35
Energy-Aware Non-Preemptive Task Scheduling With Deadline Constraint in DVFS-Enabled Heterogeneous Clusters	35
HybRAID: A High-Performance Hybrid RAID Storage Architecture for Write-Intensive Applications in All-Flash Storage Systems	35
A Framework for Mapping DRL Algorithms With Prioritized Replay Buffer Onto Heterogeneous Platforms	34
From Deterioration to Acceleration: A Calibration Approach to Rehabilitating Step Asynchronism in Federated Optimization	34
MemXCT: Design, Optimization, Scaling, and Reproducibility of X-Ray Tomography Imaging	34
Optimizing Management of Persistent Data Structures in High-Performance Analytics	34
FedVeca: Federated Vectorized Averaging on Non-IID Data With Adaptive Bi-Directional Global Objective	34
Joint Coverage-Reliability for Budgeted Edge Application Deployment in Mobile Edge Computing Environment	33
Optimal Convex Hull Formation on a Grid by Asynchronous Robots With Lights	33
SpatialSSJP: QoS-Aware Adaptive Approximate Stream-Static Spatial Join Processor	33
CIA: A Collaborative Integrity Auditing Scheme for Cloud Data With Multi-Replica on Multi-Cloud Storage Providers	32
TensorOpt: Exploring the Tradeoffs in Distributed DNN Training With Auto-Parallelism	32
HSA-Net: Hidden-State-Aware Networks for High-Precision QoS Prediction	32
An Efficient Algorithm for Hamiltonian Path Embedding of $k$-Ary $n$-Cubes under the Partitioned Edge Fault Model	32
Scalable and Efficient Reinforcement Learning for Virtual Machine Rescheduling in Cloud Data Centers	31
VCSR: An Efficient GPU Memory-Aware Sparse Format	31
Practice of Streaming Processing of Dynamic Graphs: Concepts, Models, and Systems	31
Deep Reinforcement Learning for Load-Balancing Aware Network Control in IoT Edge Systems	31
EESaver: Saving Energy Dynamically for Green Multi-Access Edge Computing	31
Chameleon: An Efficient FHE Scheme Switching Acceleration on GPUs	31
Liberator: A Data Reuse Framework for Out-of-Memory Graph Computing on GPUs	31
Optimizing Error-Bounded Lossy Compression for Scientific Data With Diverse Constraints	30
Leveraging Code Snippets to Detect Variations in the Performance of HPC Systems	30
HiTDL: High-Throughput Deep Learning Inference at the Hybrid Mobile Edge	30
Revisiting PM-Based B-Tree With Persistent CPU Cache	30
Bandwidth-Aware Scheduling Repair Techniques in Erasure-Coded Clusters: Design and Analysis	30
Graphite: Hardware-Aware GNN Reshaping for Acceleration With GPU Tensor Cores	30
Critique of “MemXCT: Memory-Centric X-Ray CT Reconstruction With Massive Parallelization” by SCC Team From Clemson University	30
Blockchain Assisted Decentralized Federated Learning (BLADE-FL): Performance Analysis and Resource Allocation	30
Improving Fairness for SSD Devices through DRAM Over-Provisioning Cache Management	29
Accelerated Information Dissemination for Replica Selection in Distributed Key-Value Store Systems	29
Understanding the Impact of Data Staging for Coupled Scientific Workflows	29
Parallel and Distributed Bayesian Network Structure Learning	28
Toward Load-Balanced Redundancy Transitioning for Erasure-Coded Storage	28
A Practical Framework for Secure Document Retrieval in Encrypted Cloud File Systems	28
Deadline and Reliability Aware Multiserver Configuration Optimization for Maximizing Profit	28
P4SGD: Programmable Switch Enhanced Model-Parallel Training on Generalized Linear Models on Distributed FPGAs	27
Doing More With Less: Balancing Probing Costs and Task Offloading Efficiency At the Network Edge	27
HI-Kyber: A Novel High-Performance Implementation Scheme of Kyber Based on GPU	27
A Memory-Efficient Hybrid Parallel Framework for Deep Neural Network Training	27
NetSHa: In-Network Acceleration of LSH-Based Distributed Search	27
Styx: An Efficient Workflow Engine for Serverless Platforms	26
LOCUS: User-Perceived Delay-Aware Service Placement and User Allocation in MEC Environment	26
Necessary Feasibility Analysis for Mixed-Criticality Real-Time Embedded Systems	26
Efficient Function Queryable and Privacy Preserving Data Aggregation Scheme in Smart Grid	26
Predicting Throughput of Distributed Stochastic Gradient Descent	26
Taking Advantage of the Mistakes: Rethinking Clustered Federated Learning for IoT Anomaly Detection	25
FedICT: Federated Multi-Task Distillation for Multi-Access Edge Computing	25
FEditor: Consecutive Task Placement With Adjustable Shapes Using FPGA State Frames	25
Distributed Evolution Strategies With Multi-Level Learning for Large-Scale Black-Box Optimization	25
Taming Offload Overheads in a Massively Parallel Open-Source RISC-V MPSoC: Analysis and Optimization	25
RADAR: A Skew-Resistant and Hotness-Aware Ordered Index Design for Processing-in-Memory Systems	24
Critique of “Data Flow Lifecycles for Optimizing Workflow Coordination” by SCC Team From National Tsing Hua University	24
UFC2: User-Friendly Collaborative Cloud	24
Learning to Schedule Multi-Server Jobs With Fluctuated Processing Speeds	24
Cost-Efficient Workflow Scheduling Algorithm for Applications With Deadline Constraint on Heterogeneous Clouds	24
Content Collaborative Caching Strategy in the Edge Maintenance of Communication Network: A Joint Download Delay and Energy Consumption Method	23
Monte: SFCs Migration Scheme in the Distributed Programmable Data Plane	23
Ocelot: An Interactive, Efficient Distributed Compression-As-a-Service Platform With Optimized Data Compression Techniques	23
EDTC: Exact Triangle Counting for Dynamic Graphs on GPU	23
Increasing the Efficiency of Massively Parallel Sparse Matrix-Matrix Multiplication in First-Principles Calculation on the New-Generation Sunway Supercomputer	23
Parallel Multi Objective Shortest Path Update Algorithm in Large Dynamic Networks	22
Safe Multi-Agent Deep Reinforcement Learning for the Management of Autonomous Connected Vehicles at Future Intersections	22
Accelerating Bayesian Neural Networks via Algorithmic and Hardware Optimizations	22
Fed-Grow: Federating to Grow Transformers for Resource-Constrained Users Without Model Sharing	22
Distributed Approaches to Butterfly Analysis on Large Dynamic Bipartite Graphs	22
Optimizing DNN Compilation for Distributed Training With Joint OP and Tensor Fusion	22
On Mixing Eventual and Strong Consistency: Acute Cloud Types	21

On Model Transmission Strategies in Federated Learning With Lossy Communications	21
MRCN: Throughput-Oriented Multicast Routing for Customized Network-on-Chips	21
Multi-Agent Collaboration for Workflow Task Offloading in End-Edge-Cloud Environments Using Deep Reinforcement Learning	21
Estuary: A Low Cross-Shard Blockchain Sharding Protocol Based on State Splitting	21
COFFEE: Cross-Layer Optimization for Fast and Efficient Executions of Sinkhorn-Knopp Algorithm on HPC Systems	21
Collaboration in Federated Learning With Differential Privacy: A Stackelberg Game Analysis	21
CERT-DF: A Computing-Efficient and Robust Distributed Deep Forest Framework With Low Communication Overhead	21
VQL: Efficient and Verifiable Cloud Query Services for Blockchain Systems	21
Dap-FL: Federated Learning Flourishes by Adaptive Tuning and Secure Aggregation	21
Guest Editorial:Special Section on SC22 Student Cluster Competition	20
Scaling Poisson Solvers on Many Cores via MMEwald	20
CREPE: Concurrent Reverse-Modulo-Scheduling and Placement for CGRAs	20
Cost-Effective Server Deployment for Multi-Access Edge Networks: A Cooperative Scheme	20
NDP: Network Division Positioning for Irregular Multi-Hop Networks	20
Critique of “A Parallel Framework for Constraint-Based Bayesian Network Learning via Markov Blanket Discovery” by SCC Team From ShanghaiTech University	20
The State of the Art of Metadata Managements in Large-Scale Distributed File Systems — Scalability, Performance and Availability	20
Concurrent and Orthogonal Software Power Meters for Accurate Runtime Energy Profiling of Parallel Hybrid Programs on Heterogeneous Hybrid Servers	19
AdaptChain: Adaptive Scaling Blockchain With Transaction Deduplication	19
Gamora: Learning-Based Buffer-Aware Preloading for Adaptive Short Video Streaming	19
SelectiveEC: Towards Balanced Recovery Load on Erasure-Coded Storage Systems	19
Cache Partition Management for Improving Fairness and I/O Responsiveness in NVMe SSDs	19
High Performance OpenCL-Based GEMM Kernel Auto-Tuned by Bayesian Optimization	19
APQ: Automated DNN Pruning and Quantization for ReRAM-Based Accelerators	19
DELICIOUS: Deadline-Aware Approximate Computing in Cache-Conscious Multicore	19
Adaptive Vertical Federated Learning on Unbalanced Features	18
GPABE: GPU-Based Parallelization Framework for Attribute-Based Encryption Schemes	18
RLPTO: A Reinforcement Learning-Based Performance-Time Optimized Task and Resource Scheduling Mechanism for Distributed Machine Learning	18
CNNPC: End-Edge-Cloud Collaborative CNN Inference With Joint Model Partition and Compression	18
Reliability-Aware Multi-Objective Memetic Algorithm for Workflow Scheduling Problem in Multi-Cloud System	18
FedTune-SGM: A Stackelberg-Driven Personalized Federated Learning Strategy for Edge Networks	18
Accelerating Content-Defined Chunking for Data Deduplication Based on Speculative Jump	17
IRIS: A Performance-Portable Framework for Cross-Platform Heterogeneous Computing	17
Improved Methods of Task Assignment and Resource Allocation With Preemption in Edge Computing Systems	17
An Unequal Caching Strategy for Shared-Memory Graph Analytics	17
RPCE: Dynamic Data Replicas Placement Management by Cloud and Edge Collaboration	17
Co-Concurrency Mechanism for Multi-GPUs in Distributed Heterogeneous Environments	17
MUCVR: Edge Computing-Enabled High-Quality Multi-User Collaboration for Interactive MVR	17
m2LLM: A Multi-Dimensional Optimization Framework for LLM Inference on Mobile Devices	17
LOFS: A Lightweight Online File Storage Strategy for Effective Data Deduplication at Network Edge	17
Floating Point Calculation of the Cube Function on FPGAs	17
Cost-Effective Empirical Performance Modeling	17
Auto-GNAS: A Parallel Graph Neural Architecture Search Framework	16
Enabling Tile-Based Direct Query on Adaptively Compressed Data With GPU Acceleration	16
Based on Tensor Core Sparse Kernels Accelerating Deep Neural Networks	16
Texplorer: Efficient Tensor Program Optimization for GPUs Using a Highly Constrained Search Space	16
Beyond Belady to Attain a Seemingly Unattainable Byte Miss Ratio for Content Delivery Networks	16
Accelerating Deep Learning Inference via Model Parallelism and Partial Computation Offloading	16
Cooperative Scheduling Schemes for Explainable DNN Acceleration in Satellite Image Analysis and Retraining	16
FedMDS: An Efficient Model Discrepancy-Aware Semi-Asynchronous Clustered Federated Learning Framework	16
Online Elastic Resource Provisioning With QoS Guarantee in Container-Based Cloud Computing	16
Critique of “MemXCT: Memory-Centric X-Ray CT Reconstruction With Massive Parallelization” by SCC Team From ETH Zürich	16
PaVM: A Parallel Virtual Machine for Smart Contract Execution and Validation	16
MemTunnel: A CXL-Based Rack-Scale Host Memory Pooling Architecture for Cloud Service	16
The Doctrine of MEAN: Realizing Deduplication Storage at Unreliable Edge	16
Synergistically Rebalancing the EDP of Container-Based Parallel Applications	16
GAP-DCCS: A Generic Acceleration Paradigm for Data-Intensive Applications With Efficient Data Compression and Caching Strategy Over CPU-GPU Clusters	15
Rethinking Virtual Machines Live Migration for Memory Disaggregation	15
Applications and Challenges of Multi-Core Scheduling in Intelligent Automotive Systems	15
FLUPS - A Flexible and Performant Massively Parallel Fourier Transform Library	15
Shuffle Differential Private Data Aggregation for Random Population	15
CPLNS: Cooperative Parallel Large Neighborhood Search for Large-Scale Multi-Agent Path Finding	15
Guest Editorial	15
A Distributed Network-Based Runtime Verification of Full Regular Temporal Properties	15
Near-Lossless MPI Tracing and Proxy Application Autogeneration	15
Frequency-Domain Inference Acceleration for Convolutional Neural Networks Using ReRAMs	15
Multi-Tier GPU Virtualization for Deep Learning in Cloud-Edge Systems	15
TODG: Distributed Task Offloading With Delay Guarantees for Edge Computing	15
Redundancy-Free and Load-Balanced TGNN Training With Hierarchical Pipeline Parallelism	15
Retrospecting Available CPU Resources: SMT-Aware Scheduling to Prevent SLA Violations in Data Centers	15
Scheduling Fork-Joins With Communication Delays and Equal Processing Times on Heterogeneous Processors	15
Privacy Preserving Task Push in Spatial Crowdsourcing With Unknown Popularity	15
Cost-Effective and Low-Latency Data Placement in Edge Environment Based on PageRank-Inspired Regional Value	15
Mobility-Aware Offloading and Resource Allocation for Distributed Services Collaboration	15
PhaST: Hierarchical Concurrent Log-Free Skip List for Persistent Memory	15
Accelerating Half-Precision Seismic Simulation on Neural Processing Unit	14
Evaluating Data Redistribution in PaRSEC	14
Detailed Modeling of Heterogeneous and Contention-Constrained Point-to-Point MPI Communication	14
MoltDB: Accelerating Blockchain via Ancient State Segregation	14
Deep Neural Network Training With Distributed K-FAC	14
Practical Cloud-Edge Scheduling for Large-Scale Crowdsourced Live Streaming	14
Towards Revenue-Driven Multi-User Online Task Offloading in Edge Computing	14
A Resource-Efficient Predictive Resource Provisioning System in Cloud Systems	14
Faster-BNI: Fast Parallel Exact Inference on Bayesian Networks	14
A 590-Nanosecond 757-Gbps FPGA Lossy Compressed Network	14
Scalable Deep Reinforcement Learning-Based Online Routing for Multi-Type Service Requirements	14
FEUAGame: Fairness-Aware Edge User Allocation for App Vendors	14