本週創紀錄的連發兩篇文章,希望大家不會覺得很煩!! 本週在找資料的時候,無意中發現了這個部落格,我覺得他把Data mining的基本概念整理的很好,尤其是下面有針對關連性法則的詳細說明,所以我提出來跟大家分享,所以如何大家有發現什麼好站,也歡迎推薦給我喔!! 感謝
宅學習網址
底下還有針對心智圖的筆記,大家也不妨試試,我個人是用Xmind,所以如果有任何問題,也可以討論喔!!
2013年5月30日 星期四
集群分析(K-Means Clustering)
想說很久沒有發文了,再不發文可能就會一直拖下去,看來寫部落格應該也是培養一種習慣吧!! 上週在找教學範例檔的時候,無意發現了這個網站「Analytics and Visualization of Big Data」,裏面有cover一些資料探勘的內容,如:如何用RapidMiner做集群分析(K-Means Clustering)的教學(Tutorial),雖然沒有影片,但是有Step-by-Step的操作畫面,所以,有興趣的同學可以去參考一下。
網址在此
另外,想到之前上課一直沒有講到的地方,就是RapidMiner本身就有教學的範例,如果你想要多練習、多觀摩,可以使用軟體本身的例子,範例檔的位置就在一開啟Rapidminer資料庫(Repository)的時候,一般我們會在DB下面建立我們自己的資料庫,在樹狀資料的最上方有個Sample,展開後就會發現有Data和Process兩個目錄匣,可以在裏面找到教科書中有涵蓋和沒有涵蓋的程序,例如SVM、Validation等,可以學習到進階的資料分析方式。至於Data,則可以配合YouTube上的Tutorial或是利用學過的分析方法(例如相關性分析、關連法、迴歸等)則加以分析,各位同學可以先將資料拉進RapidMiner看看資料的內容,再決定選擇那一種分析方式即可。
使用Rapidminer操作SVM的教學影片如下:
使用Rapidminer操作Cross-validation的教學影片如下:
網址在此
另外,想到之前上課一直沒有講到的地方,就是RapidMiner本身就有教學的範例,如果你想要多練習、多觀摩,可以使用軟體本身的例子,範例檔的位置就在一開啟Rapidminer資料庫(Repository)的時候,一般我們會在DB下面建立我們自己的資料庫,在樹狀資料的最上方有個Sample,展開後就會發現有Data和Process兩個目錄匣,可以在裏面找到教科書中有涵蓋和沒有涵蓋的程序,例如SVM、Validation等,可以學習到進階的資料分析方式。至於Data,則可以配合YouTube上的Tutorial或是利用學過的分析方法(例如相關性分析、關連法、迴歸等)則加以分析,各位同學可以先將資料拉進RapidMiner看看資料的內容,再決定選擇那一種分析方式即可。
使用Rapidminer操作SVM的教學影片如下:
使用Rapidminer操作Cross-validation的教學影片如下:
2013年5月21日 星期二
RapidMiner與其他資料探勘軟體的比較
我又發現了一個網站,把市面上常見的開放源碼做資料探勘的軟體羅列比較,但由於沒時間翻譯,因此,我把連結貼出來,希望有興趣的人自己上網參考。
網站AI Computer Vision
比較一
比較二
相較於貴森森的SPSS、SAS,RapidMiner在各方面的表現(ex. 文件處理、圖形化介面、操作簡易、指令敘述與演算法)均在中上水準。
以下是我直接把作者覺得的優點和缺點貼上給各位參考
希望以上資訊對各位學習上
網站AI Computer Vision
比較一
比較二
相較於貴森森的SPSS、SAS,RapidMiner在各方面的表現(ex. 文件處理、圖形化介面、操作簡易、指令敘述與演算法)均在中上水準。
以下是我直接把作者覺得的優點和缺點貼上給各位參考
RapidMiner
RapidMiner is an open source statistical and data mining package written in Java.
- Solid and complete package.
- It easily reads and writes Excel files and different databases.
- You program by piping components together in a graphic ETL work flows.
- If you set up an illegal work flows RapidMiner suggest Quick Fixes to make it legal.
Issues:
- I only got it to works under Windows, but others have gotten it to work in other environments, see comment below.
- There are a lot of different ETL modules; it took a while to understand how to use them.
- First I had a hard time making a comparison between different models. Eventually I found a way: You chose a cross validation and select different models one by one. When you run the model the will all be stored on the result page and you can do comparison there.
希望以上資訊對各位學習上
標籤:
資料探勘軟體比較,
R,
Rapidminer,
Weka
資料探勘與資料庫行銷專題
使用軟體:RapidMiner 5.0版
軟體優點:不需要瞭解複雜的演算法、資料結構與撰寫程式的能力
下載位置:Rapid-i.com網站(需註冊後下載) Dropbox載點
教材檔案
課程進度
第一週 軟體安裝、操作介面介紹、資料準備、相關性分析(Correlation)
第二週 關連分析(Association Rules)、集群分析(K-Means Clustering)、區別分析(Discriminant Analysis)
第三週 線性迴歸分析(Linear Regression)、羅吉斯分析(Logistic Regression)
第四週 決策樹(Decision Trees)、社群網絡分析(SNA)
第五週 類神經網路 (Neural Network)
第六週 文字探勘(Text Mining)、網頁探勘(Web Mining)
章節導讀
Step 1. 個案內容
Step 2. 瞭解資料類型與資料分析的目的(ex. 解決問題或輔助決策)
Step 3. 資料準備 (ex. 檢視資料是否完整或遺漏值)
Step 4. 建立資料分析模型 (ex. 分類、預測還是兩者都有)
Step 5. 結果評估 (ex. 統計結果、因果邏輯、交叉驗證)
Step 6. 成果報告 (ex. 簡報結果、與客戶交換意見與資料儲存)
上課注意事項
- 因為課程時間很短,儘量每週都能出席。
- 範例檔或操作結果請儲存在隨身碟或雲端,以便每次上課時使用。
- 鼓勵帶自己的資料來分析,在每堂課結束前可留半小時提問。
- 可多利用網路資源(ex. YouTube或社群討論),輔助學習。
個人心得分享:
網路資料無窮無盡、免費且方便取得,分析工具眾多,電腦運算能力強大,在Big Data海量資料分析的時代,只有懂得問對問題的人才能挖到真正的金礦。
2013年5月20日 星期一
RapidMiner在YouTube上的教學影片
開發開放源碼的資料探勘軟體RapidMiner的公司Rapid-i有一個YouTube的專屬頻道(名稱是Rapid-I: OS Business Analytics),目前上面有17隻影片,大部份是講分析工具RapidAnalytics的用法,總共有1-9個單元,也有RapidMiner的影片,所以,想要學習RapidMiner和RapidAnalytics的人不要錯過囉!!不過,講者和內容都是英文,如果英文聽力有點吃力的讀者,可以試著打開YouTube字幕翻譯的功能,應該多少可以瞭解大概的內容。
頻道的連結在此
頻道的連結在此
訂閱:
文章 (Atom)