寫給程序員的數據挖掘實踐指南是一本數據挖掘技術指導手冊,由軟件開發工程師Ron Zacharski編著,知名技術譯者王斌老師譯作。本書作者采用在實踐中學的方式,提供了大量Python的代碼和案例,同時還詳細的介紹了如何應用數據挖掘技術。通過閱讀本書,可以幫助讀者動手實踐進行數據挖掘、集體智慧并構建出推薦系統,非常適合對數據挖掘、數據分析和推薦系統感興趣的程序員及相關領域的從業者閱讀參考。

內容介紹

數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。大多數數據挖掘的教材都專注于介紹理論基礎,因而往往難以理解和學習。《寫給程序員的數據挖掘實踐指南》是介紹寫給程序員的一本數據挖掘指南,可以幫助讀者動手實踐進行數據挖掘、集體智慧并構建推薦系統。全書共8章,介紹了數據挖掘的基本知識和理論、協同過濾、內容過濾及分類、算法評估、樸素貝葉斯、非結構化文本分類以及聚類等內容。全書采用做中學的方式,用生動的圖示、大量的表格、簡明的公式,實用的Python代碼示例,闡釋數據挖掘的知識和技能。每章還給出了習題和練習,幫助讀者鞏固所學的知識。

《寫給程序員的數據挖掘實踐指南》專注適合對數據挖掘、數據分析和推薦系統感興趣的程序員及相關領域的從業者閱讀參考;同時,本書也可以作為一本輕松有趣的數據挖掘課程教學參考書。

章節目錄

第1章 數據挖掘簡介及本書使用方法1

歡迎來到21世紀2

并不只是對象5

TB級挖掘是現實不是科幻7

本書體例9

第2章 協同過濾—愛你所愛14

如何尋找相似用戶15

曼哈頓距離16

歐氏距離16

N維下的思考18

一般化22

Python中數據表示方法及代碼24

計算曼哈頓距離的代碼25

用戶的評級差異28

皮爾遜相關系數30

在繼續之前稍微休息一下35

最后一個公式—余弦相似度36

相似度的選擇40

一些怪異的事情43

k近鄰44

Python的一個推薦類47

一個新數據集54

第3章 協同過濾—隱式評級及基于物品的過濾56

隱式評級57

調整后的余弦相似度67

Slope One算法76

Slope One算法的粗略描述圖77

基于Python的實現83

加權Slope One:推薦模塊88

MovieLens數據集90

第4章 內容過濾及分類—基于物品屬性的過濾93

一個簡單的例子98

用Python實現101

給出推薦的原因102

一個取值范圍的問題104

歸一化105

改進的標準分數109

歸一化 vs. 不歸一化111

回到Pandora112

體育項目的識別119

Python編程123

就是它了133

汽車MPG數據135

雜談137

第5章 分類的進一步探討—算法評估及kNN139

訓練集和測試集140

10折交叉驗證的例子142

混淆矩陣146

一個編程的例子148

Kappa統計量154

近鄰算法的改進159

一個新數據集及挑戰163

更多數據、更好的算法以及一輛破公共汽車168

第6章 概率及樸素貝葉斯—樸素貝葉斯170

微軟購物車174

貝葉斯定理177

為什么需要貝葉斯定理185

i100 i500188

用Python編程實現191

共和黨 vs. 民主黨197

數字205

Python實現214

這種做法會比近鄰算法好嗎221

第7章 樸素貝葉斯及文本—非結構化文本分類226

一個文本正負傾向性的自動判定系統228

訓練階段232

第8章 聚類—群組發現256

k-means聚類281

SSE或散度289

小結303

安然公司305

使用說明

1、下載并解壓,得出pdf文件

2、如果打不開本文件,請務必下載pdf閱讀器

3、安裝后,在打開解壓得出的pdf文件

4、雙擊進行閱讀

寫給程序員的數據挖掘實踐指南下載 pdf高清掃描版下載地址

遠程下載