本書介紹了大數(shù)據處理中的數(shù)據采集、數(shù)據存儲、數(shù)據預處理、數(shù)據分析與挖掘等內容,還介紹了使用Python語言進行大數(shù)據處理的方法。全書共8章。第1章簡要介紹大數(shù)據的概念、大數(shù)據處理的過程和涉及的不同方面,以及使用Python解決大數(shù)據問題的優(yōu)勢。第2章介紹如何安裝和準備Python編程環(huán)境,包括編譯器、集成開發(fā)環(huán)境(IDE)的安裝,以及第三方包的管理和安裝方法。第3章介紹獲取數(shù)據的方法,即如何使用爬蟲技術從網站獲取網頁,并通過解析網頁獲取其中的數(shù)據。第4章介紹數(shù)據存儲和使用的方法,包括操作常見類型文件的方法,以及操作關系型數(shù)據庫和NoSQL數(shù)據庫的方法。第5章介紹如何使用NumPy和Pandas操作數(shù)組、矩陣以及如何使用其中的隨機數(shù)功能。第6章介紹數(shù)據預處理的概念,并介紹數(shù)據清洗、數(shù)據集成、數(shù)據轉換和數(shù)據規(guī)約的方法。第7章介紹數(shù)據挖掘的常見模型,并介紹利用scikit-learn進行有監(jiān)督分類、回歸預測以及聚類分析的方法。第8章介紹數(shù)據可視化基礎,包括可視化的過程和如何選擇合適的圖表,并介紹了利用Matplotlib繪制常見的圖表。 本書的第1、2章是基礎,第3~8章分別介紹了大數(shù)據處理的某一環(huán)節(jié)。這些章節(jié)的內容相互獨立,讀者在自學時可根據興趣和時間調整學習順序。