Data-centric Artificial Intelligence: A Survey

17 March 2023

Daochen Zha

Fan Yang

Papers citing "Data-centric Artificial Intelligence: A Survey"

50 / 112 papers shown

Title
Minimizing Risk Through Minimizing Model-Data Interaction: A Protocol For Relying on Proxy Tasks When Designing Child Sexual Abuse Imagery Detection Models Thamiris Coelho Leo S. F. Ribeiro João Macedo J. A. dos Santos Sandra Avila 24 0 0 10 May 2025
Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning Shaokun Zhang Yi Dong Jieyu Zhang Jan Kautz Bryan Catanzaro Andrew Tao Qingyun Wu Zhiding Yu Guilin Liu LLMAG OffRL KELM LRM 86 0 0 25 Apr 2025
Collaborative Multi-Agent Reinforcement Learning for Automated Feature Transformation with Graph-Driven Path Optimization Xiaohan Huang Dongjie Wang Zhiyuan Ning Ziyue Qiao Qingqing Long Haowei Zhu Yi Du Min-Ying Wu Yuanchun Zhou Meng Xiao 38 1 0 24 Apr 2025
Identifying Key Challenges of Hardness-Based Resampling Pawel Pukowski Venet Osmani 33 0 0 09 Apr 2025
FastFT: Accelerating Reinforced Feature Transformation via Advanced Exploration Strategies Tianqi He Xiaohan Huang Yi Du Qingqing Long Ziyue Qiao Min-Ying Wu Yanjie Fu Yuanchun Zhou Meng Xiao OffRL 93 2 0 26 Mar 2025
Global Renewables Watch: A Temporal Dataset of Solar and Wind Energy Derived from Satellite Imagery Caleb Robinson Anthony Ortiz Allen Kim Rahul Dodhia Andrew Zolli Shivaprakash K. Nagaraju J. O J. Kiesecker J. L. Ferres 64 0 0 19 Mar 2025
Automatic quality control in multi-centric fetal brain MRI super-resolution reconstruction Thomas Sanchez Vladyslav Zalevsky Angeline Mihailo Gerard Martí Juan E. Eixarch Andras Jakab Vincent Dunet Mériam Koob G. Auzias Meritxell Bach Cuadra 49 0 0 13 Mar 2025
The Algorithmic State Architecture (ASA): An Integrated Framework for AI-Enabled Government Zeynep Engin Jon Crowcroft David Hand Philip Treleaven 49 1 0 11 Mar 2025
Empowering Edge Intelligence: A Comprehensive Survey on On-Device AI Models Xubin Wang Zhiqing Tang Jianxiong Guo Tianhui Meng Chenhao Wang Tian-sheng Wang Weijia Jia 50 0 0 08 Mar 2025
EDCA - An Evolutionary Data-Centric AutoML Framework for Efficient Pipelines Joana Simões João Correia 150 0 0 06 Mar 2025
Data Analysis Prediction over Multiple Unseen Datasets: A Vector Embedding Approach Andreas Loizou Dimitrios Tsoumakos 38 0 0 24 Feb 2025
Automated Query-Product Relevance Labeling using Large Language Models for E-commerce Search Jayant Sachdev Sean D Rosario Abhijeet Phatak He Wen Swati Kirti Chittaranjan Tripathy 34 1 0 21 Feb 2025
Is This Collection Worth My LLM's Time? Automatically Measuring Information Potential in Text Corpora Tristan Karch Luca Engel Philippe Schwaller Frédéric Kaplan 77 0 0 20 Feb 2025
Revisiting Rogers' Paradox in the Context of Human-AI Interaction K. M. Collins Umang Bhatt Ilia Sucholutsky 46 1 0 16 Jan 2025
$Interpolation pour láugmentation de donnees : Application \`a la gestion des adventices de la canne a sucre a la Reunion$ Interpolation pour láugmentation de donnees : Application \`a la gestion des adventices de la canne a sucre a la Reunion Frédérick Fabre Ferber Dominique Gay Jean-Christophe Soulié Jean Diatta Odalric-Ambrym Maillard 35 0 0 10 Jan 2025
Optimizing Edge AI: A Comprehensive Survey on Data, Model, and System Strategies Xubin Wang Weijia Jia 36 0 0 08 Jan 2025
General Information Metrics for Improving AI Model Training Efficiency Jianfeng Xu Congcong Liu Xiaoying Tan Xiaojie Zhu Anpeng Wu ... Weijun Kong Chun Li Hu Xu Kun Kuang Fei Wu 68 0 0 02 Jan 2025
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models Yulei Qin Yuncheng Yang Pengcheng Guo Gang Li Hang Shao Yuchen Shi Zihan Xu Yun Gu Ke Li Xing Sun ALM 90 12 0 31 Dec 2024
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching Nabeel Seedat M. Schaar 34 2 0 31 Oct 2024
GDeR: Safeguarding Efficiency, Balancing, and Robustness via Prototypical Graph Pruning Guibin Zhang Haonan Dong Yuchen Zhang Zhixun Li Dingshuo Chen Kai Wang Tianlong Chen Yuxuan Liang Dawei Cheng Kun Wang 32 3 0 17 Oct 2024
Data Quality Control in Federated Instruction-tuning of Large Language Models Yaxin Du Rui Ye Fengting Yuchi W. Zhao Jingjing Qu Y. Wang Siheng Chen ALM FedML 45 0 0 15 Oct 2024
Federated Data-Efficient Instruction Tuning for Large Language Models Zhen Qin Zhaomin Wu Bingsheng He Shuiguang Deng FedML 35 2 0 14 Oct 2024
User-centric Immersive Communications in 6G: A Data-oriented Framework via Digital Twin Conghao Zhou Shisheng Hu Jie Gao Xinyu Huang W. Zhuang Xuemin Shen 28 0 0 03 Oct 2024
Scrambled text: training Language Models to correct OCR errors using synthetic data Jonathan Bourne SyDa 36 2 0 29 Sep 2024
AdapFair: Ensuring Continuous Fairness for Machine Learning Operations Yinghui Huang Zihao Tang Xiangyu Chang FaML 25 0 0 23 Sep 2024
Data-Centric Strategies for Overcoming PET/CT Heterogeneity: Insights from the AutoPET III Lesion Segmentation Challenge Balint Kovacs Shuhan Xiao Maximilian R. Rokuss Constantin Ulrich Fabian Isensee Klaus H. Maier-Hein 11 0 0 16 Sep 2024
AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing Huawei Ji Cheng Deng Bo Xue Zhouyang Jin Jiaxin Ding Xiaoying Gan Luoyi Fu Xinbing Wang Chenghu Zhou 20 0 0 16 Sep 2024
Promoting Fairness in Link Prediction with Graph Enhancement Yezi Liu Hanning Chen Mohsen Imani 30 1 0 13 Sep 2024
Unlearnable Examples Detection via Iterative Filtering Yi Yu Qichen Zheng Siyuan Yang Wenhan Yang Jun Liu Shijian Lu Yap-Peng Tan Kwok-Yan Lam Alex Kot AAML 35 1 0 15 Aug 2024
Survey and Taxonomy: The Role of Data-Centric AI in Transformer-Based Time Series Forecasting Jingjing Xu Caesar Wu Yuan-Fang Li Grégoire Danoy Pascal Bouvry AI4TS 32 1 0 29 Jul 2024
Can Modifying Data Address Graph Domain Adaptation? Renhong Huang Jiarong Xu Xin Jiang Ruichuan An Yang Yang OOD 50 6 0 27 Jul 2024
Collaborative Evolving Strategy for Automatic Data-Centric Development Xu Yang Haotian Chen Wenjun Feng Haoxue Wang Zeqi Ye Xinjie Shen Xiao Yang Shizhao Sun Weiqing Liu Jiang Bian 30 2 0 26 Jul 2024
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective Zhen Qin Daoyuan Chen Wenhao Zhang Liuyi Yao Yilun Huang Bolin Ding Yaliang Li Shuiguang Deng 57 5 0 11 Jul 2024
A Survey on Data Quality Dimensions and Tools for Machine Learning Yuhan Zhou Fengjiao Tu Kewei Sha Junhua Ding Haihua Chen 40 4 0 28 Jun 2024
Aligning Teacher with Student Preferences for Tailored Training Data Generation Yantao Liu Zhao Zhang Zijun Yao S. Cao Lei Hou Juanzi Li 47 1 0 27 Jun 2024
Enhancing Tabular Data Optimization with a Flexible Graph-based Reinforced Exploration Strategy Xiaohan Huang Dongjie Wang Zhiyuan Ning Ziyue Qiao Qingqing Long Haowei Zhu Min Wu Yuanchun Zhou Meng Xiao OffRL 27 5 0 11 Jun 2024
Data-Centric Label Smoothing for Explainable Glaucoma Screening from Eye Fundus Images Adrian Galdran M. A. G. Ballester 28 0 0 06 Jun 2024
Poisoning Attacks and Defenses in Recommender Systems: A Survey Zongwei Wang Junliang Yu Min Gao Wei Yuan Guanhua Ye S. Sadiq Hongzhi Yin AAML 43 6 0 03 Jun 2024
A Survey of Multimodal Large Language Model from A Data-centric Perspective Tianyi Bai Hao Liang Binwang Wan Yanran Xu Xi Li ... Ping-Chia Huang Jiulong Shan Conghui He Binhang Yuan Wentao Zhang 47 36 0 26 May 2024
An Explanatory Model Steering System for Collaboration between Domain Experts and AI Aditya Bhattacharya Simone Stumpf K. Verbert 26 4 0 17 May 2024
Representation Debiasing of Generated Data Involving Domain Experts Aditya Bhattacharya Simone Stumpf K. Verbert 34 2 0 17 May 2024
A Comprehensive Survey on Data Augmentation Zaitian Wang Pengfei Wang Kunpeng Liu Pengyang Wang Yanjie Fu Chang-Tien Lu Charu Aggarwal Jian Pei Yuanchun Zhou ViT 97 21 0 15 May 2024
Large Language Models for Cyber Security: A Systematic Literature Review HanXiang Xu Shenao Wang Ningke Li K. Wang Yanjie Zhao Kai Chen Ting Yu Yang Janet Liu H. Wang 34 23 0 08 May 2024
Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models Anshuman Chhabra Bo Li Jian Chen Prasant Mohapatra Hongfu Liu TDI 29 0 0 06 May 2024
Kernel Corrector LSTM Rodrigo Tuna Yassine Baghoussi Carlos Soares João Mendes-Moreira KELM AI4TS 19 0 0 28 Apr 2024
Reuse out-of-year data to enhance land cover mappingvia feature disentanglement and contrastive learning C. Dantas R. Gaetano Claudia Paris Dino Ienco 23 0 0 17 Apr 2024
An Experimental Study on the Rashomon Effect of Balancing Methods in Imbalanced Classification Mustafa Cavus Przemysław Biecek 25 7 0 22 Mar 2024
An In-Depth Analysis of Data Reduction Methods for Sustainable Deep Learning Víctor Toscano-Durán Javier Perera-Lago Eduardo Paluzo-Hidalgo Rocio Gonzalez-Diaz Miguel A. Gutiérrez-Naranjo Matteo Rucco 24 1 0 22 Mar 2024
Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment Feifan Song Bowen Yu Hao Lang Haiyang Yu Fei Huang Houfeng Wang Yongbin Li ALM 33 11 0 17 Mar 2024
VTruST: Controllable value function based subset selection for Data-Centric Trustworthy AI Soumili Das Shubhadip Nag Shreyyash Sharma Suparna Bhattacharya Sourangshu Bhattacharya 24 0 0 08 Mar 2024