寫給程序員的數據挖掘實踐指南是一本數據挖掘技術指導手冊,由軟件開發工程師Ron Zacharski編著,知名技術譯者王斌老師譯作。本書作者采用在實踐中學的方式,提供了大量Python的代碼和案例,同時還詳細的介紹了如何應用數據挖掘技術。通過閱讀本書,可以幫助讀者動手實踐進行數據挖掘、集體智慧并構建出推薦系統,非常適合對數據挖掘、數據分析和推薦系統感興趣的程序員及相關領域的從業者閱讀參考。
內容介紹
數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。大多數數據挖掘的教材都專注于介紹理論基礎,因而往往難以理解和學習。《寫給程序員的數據挖掘實踐指南》是介紹寫給程序員的一本數據挖掘指南,可以幫助讀者動手實踐進行數據挖掘、集體智慧并構建推薦系統。全書共8章,介紹了數據挖掘的基本知識和理論、協同過濾、內容過濾及分類、算法評估、樸素貝葉斯、非結構化文本分類以及聚類等內容。全書采用做中學的方式,用生動的圖示、大量的表格、簡明的公式,實用的Python代碼示例,闡釋數據挖掘的知識和技能。每章還給出了習題和練習,幫助讀者鞏固所學的知識。
《寫給程序員的數據挖掘實踐指南》專注適合對數據挖掘、數據分析和推薦系統感興趣的程序員及相關領域的從業者閱讀參考;同時,本書也可以作為一本輕松有趣的數據挖掘課程教學參考書。
章節目錄
第1章 數據挖掘簡介及本書使用方法1
歡迎來到21世紀2
并不只是對象5
TB級挖掘是現實不是科幻7
本書體例9
第2章 協同過濾—愛你所愛14
如何尋找相似用戶15
曼哈頓距離16
歐氏距離16
N維下的思考18
一般化22
Python中數據表示方法及代碼24
計算曼哈頓距離的代碼25
用戶的評級差異28
皮爾遜相關系數30
在繼續之前稍微休息一下35
最后一個公式—余弦相似度36
相似度的選擇40
一些怪異的事情43
k近鄰44
Python的一個推薦類47
一個新數據集54
第3章 協同過濾—隱式評級及基于物品的過濾56
隱式評級57
調整后的余弦相似度67
Slope One算法76
Slope One算法的粗略描述圖77
基于Python的實現83
加權Slope One:推薦模塊88
MovieLens數據集90
第4章 內容過濾及分類—基于物品屬性的過濾93
一個簡單的例子98
用Python實現101
給出推薦的原因102
一個取值范圍的問題104
歸一化105
改進的標準分數109
歸一化 vs. 不歸一化111
回到Pandora112
體育項目的識別119
Python編程123
就是它了133
汽車MPG數據135
雜談137
第5章 分類的進一步探討—算法評估及kNN139
訓練集和測試集140
10折交叉驗證的例子142
混淆矩陣146
一個編程的例子148
Kappa統計量154
近鄰算法的改進159
一個新數據集及挑戰163
更多數據、更好的算法以及一輛破公共汽車168
第6章 概率及樸素貝葉斯—樸素貝葉斯170
微軟購物車174
貝葉斯定理177
為什么需要貝葉斯定理185
i100 i500188
用Python編程實現191
共和黨 vs. 民主黨197
數字205
Python實現214
這種做法會比近鄰算法好嗎221
第7章 樸素貝葉斯及文本—非結構化文本分類226
一個文本正負傾向性的自動判定系統228
訓練階段232
第8章 聚類—群組發現256
k-means聚類281
SSE或散度289
小結303
安然公司305
使用說明
1、下載并解壓,得出pdf文件
2、如果打不開本文件,請務必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進行閱讀




