搜尋Google發現了對岸有一個針對Rapidminer的說明,由於內容是簡體,因此,我特定用Word軟體轉換了一下內容。
RapidMiner資料採擷入門之一:概要
1.簡介
RapidMiner原名Yale,它是用於資料採擷、機器學習、商業預測分析的開源計算環境。根據KDnuggets在2011年的一次投票顯示,從使用率來看該軟體比之R語言還要略勝一籌。因為其具備GUI特性,所以很適合於資料採擷的初學者入門。RapidMiner提供的資料採擷和機器學習程式包括:資料載入和轉換(ETL),資料預處理和視覺化,建模,評估和部署。資料採擷的流程是以XML檔加以描述,並通過一個圖形化使用者介面顯示出來。RapidMiner是由Java程式設計語言編寫的,其中還集成了WEKA的學習器和評估方法,並可以與R語言進行協同工作。
2 學習資源軟體的説明功能表中自帶了26個tutorial,可以幫助用戶進行基本入門。另外在sample有也有不錯的案例資料和流程可供參考學習。從官方網站可以下載到一份簡單的用戶手冊,另外還有相應的資源站提供了很好的視頻教程。
3 基本概念 rapidminer中的功能均是通過連接各類運算元(operataor)形成流程(process)來實現的,整個流程可以看做是工廠車間的生產線,輸入原始資料,輸入出模型結果。運算元可以看做是執行某種具體功能的函數,不同運算元有不同的輸入輸出特性。
大體上有這樣幾類運算元:
4 建模一般流程
· 流程控制類,是為了實現迴圈和條件功能。
· 資料登錄和輸出類,是為了實現資料交換。
· 資料轉換類,包括各種資料抽取、清洗整理功能;
· 建模類,包括分類回歸建模,關聯分析、聚類分析、集成學習等功能。
· 評估類,包括多重交叉檢驗,自助法檢驗等功能
軟體有兩個主要的工作區,一個是流程設計工作區,本區左側可以看到各類運算元和庫,中間的主流程設計區,下方是錯誤提示區,右側是參數設置區。另一個是結果顯示工作區。
將運算元拖入主流程工作區後,它會以一個方箱形式呈現,不同的顏色暗示著不同的函數功能。箱體左側是輸入介面,對應著輸入類型的縮寫。右側對應輸出介面和相應縮寫。左下角會有三種顏色的狀態燈,紅燈表示關於該運算元的設置錯誤,黃燈表示設置正常但還未進行過執行操作,綠燈表示設置正常且已經進行過執行操作。
在建模時,變數(attributes)會分為兩個大類,普通變數稱為regular,而目標變數稱為label。這在有監督學習時需要特別留意。從資料特徵來分,又可分為數值變數numeric,分類變數nominal,其中又有兩值分類變數binominal,多值分類變數polynominal。不同的運算元對於輸入資料的類型有著不同的要求,這點需要在運算元説明中仔細閱讀。
·新建一個資料庫(Repository)。
·選擇需要的運算元(operator)放入主流程(main process)中。
·設置運算元相關參數 (parameter)。
·進行運算元連接。
·執行流程以得到結果
沒有留言:
張貼留言