數(shù)據(jù)清洗是大數(shù)據(jù)開發(fā)的基礎環(huán)節(jié),也是重要的環(huán)節(jié)之一。數(shù)據(jù)清洗就是發(fā)現(xiàn)并糾正數(shù)據(jù)源中存在的錯誤,對錯誤值、異常值、缺失值等可疑數(shù)據(jù)按照一定的規(guī)則和方法,使用必要的工具進行清洗與整理,使其變得干凈,達到可以進行數(shù)據(jù)分析的目的。 本書分為兩篇,共九章,系統(tǒng)地講解了數(shù)據(jù)清洗的理論與實踐。第一篇為基礎篇,其中第一章介紹數(shù)據(jù)清洗的基本概念、數(shù)據(jù)標準化以及數(shù)據(jù)倉庫的概念等;第二章介紹數(shù)據(jù)格式類型與數(shù)據(jù)編碼,從文件以及文本的格式、文檔的歸檔與壓縮、字符編碼與數(shù)據(jù)轉換方面做了介紹;第三章對常用的文本與電子表格數(shù)據(jù)清洗做了介紹;第四章介紹了數(shù)據(jù)清洗的基本技術、方法與工具;第五章從文本、Web文件、數(shù)據(jù)庫數(shù)據(jù)的抽取方面做了介紹;第六章介紹了數(shù)據(jù)的轉換與加載和數(shù)據(jù)的質量評估。第二篇為實戰(zhàn)篇,其中第七章介紹了五種常用的數(shù)據(jù)清洗工具;第八章專門講解了如何對Web的數(shù)據(jù)進行采集及預處理;第九章介紹了從RDBMS數(shù)據(jù)源中獲取數(shù)據(jù)及進行數(shù)據(jù)的脫敏、清洗等操作。 本書可作為應用型本科及高職高專學生的大數(shù)據(jù)課程教材,也可供學習數(shù)據(jù)清洗的其他讀者使用。