2013年11月12日 星期二

Metadata視覺化

昨天在觀看TED影片的時候,發現了一個有趣的網站,也是跟資料視覺化的議題有關,是兩個MIT Media Lab的學生做的一個專題計劃,他們稱之為Immersion,影片在此

The Power of Metadata



操作Demo介紹
https://immersion.media.mit.edu/demo

我自己也做了一個,做法很簡單!
第一步  連接到MIT Media Lab,網址https://immersion.media.mit.edu/
第二步  選擇要分析的帳號,可以選Gmail, Yahoo或Exchange
第三步  授權Immersion服務存取你的帳號,像我是輸入Gmail的帳號和密碼
第四步  E-mail人際溝通網絡的連結就呈現在你眼前,左、右邊還有Dashboard可以觀看時間和對象的分析

每個人與每個人在溝通的過程中都會留下一些紀錄,這些紀錄的量(例如頻率和對象)再加上時間區間就構成了一個個不同的人際溝通網絡,因此,目前學術研究人際溝通的部份多半從單一方向和對象研究,因此,很難看到人際溝通的全貌,在研究方法和測量工具上也許將來海量資料可以幫我們解決一部份的問題,但是人們內心的動機和偏好,卻很難從資料中得知,以上資訊提供給各位參考!!

2013年8月26日 星期一

Big Data by MrJamie

之初創投的Jamie今天寫了一篇Big Data的文章,標題是Data Disruption,我想作者將原文打上可能是怕翻譯成中文反而毀了原本的意義。原文的內容連結在此,摘錄如下:

理想上,當要評估一個人的還款風險,應該是要把所有關於他的數據 ── 喜歡做什麼運動、吃什麼東西、交哪些朋友、家人的財務與健康情況,全部都拿來綜合分析,因而去動態反映出他此時此刻的風險係數。而因為網路與行動上網的普及,我們離那個地方越來越近。美國 Lenddo 已經開始會去分析貸款者的 Facebook 朋友圈,用得來的結果去調整貸款者的風險指標。德國的 Kreditech 甚至會綜合考量高達 8,000 種數據來源,再決定要用什麼利率放款給你。
而貸款其實只是這中間的一個小小例子,全觀的看,網路就像是 Cygnus X-1 旁的藍色巨星一樣,提供了前所未有的資料種類與數量,懂得如何運用的企業,將能夠把它轉化為商業上的價值,完全顛覆既有產業的運作模式。
Data Disruption,是我們這個時代,正在進行的巨大革命。在這裡要討論兩個議題,
  • 傳統行銷vs. 網路行銷。
  • Big Data的商業模式。

傳統行銷4P顯然無法精確告訴行銷者要如何精確打中那些看不到的消費者,雖然很多坊間的教科書還是把4P改良應用在網路行銷上,但整個思維、操作手法甚至遊戲規則已經完全改變了,4P沒有一項是可以解釋如何讓企業變成消費者個人的臉書朋友,4P也沒有辦法教我們如何利用Google或FB找出顧客在看什麼,或是他的朋友喜歡什麼,因此,我認同4P仍然是虛實整合上一個重要的理論,但是在面對看不到的消費者,我們需要學習更多、更新的工具和資訊來幫助我們做更好的行銷策略。
Big Data在各界鼓吹之下,包含數位時代、科技橘報、Wired中文版、Inside硬塞等,意圖營造出未來前(或錢)景無窮的樣貌,但是很多商業模式被國內的法令(個資法或資訊安全)限制住,加上政府Open Data的速度緩慢,所以Big Data就如同過去政府鼓吹數位匯流(Convergence),會不會要等個十年才會開始看到一線曙光呢?希望不會

2013年7月30日 星期二

HTML5文字雲

今天在查文字雲的時候,意外發現這個網站,還提供了很多好玩的文字雲應用

部落格原文的來源在此

【HTML5 文字雲-文章詞彙分析機】
體驗網址:http://timc.idv.tw/wordcloud/
原始碼:https://github.com/timdream/wordcloud
授權方式:MIT 授權
使用技術:自製的 N-gram 演算法(使用於製作中文文字雲)、Porter Stemming Algorithm(使用於製作英文文字雲)、HTML5 canvas、HTML5 FileReader API、HTML5 Web Workers API、Javascript 1.6 新 Array 函式

使用者可以從自選範例中瞭解在內容網站上,那些關鍵字(或詞彙)是比較重要的~

歡迎大家使用後告訴我心得~感謝

補充:我自己做的範例給大家參考

2013年7月29日 星期一

關於海量資料(大數據)的書籍

最近在參考下學期要教書的教材,在博客來搜尋海量資料的時候,發現了這兩本題材很類似的書,因此,摘錄博客來網站的資料給各位參考一下!!

第一本是雲端時代的殺手級應用(作者是胡世忠),天下文化出版,網址在此


以下摘錄博客來的介紹

第一部份介紹海量資料分析的概念,以及企業、政府部門可應用的範疇。什麼是海量資料分析?與個人和企業有什麼關係?將對全球產業造成怎樣的衝擊?第一章至第三章將深入淺出地回答上述問題。
  第二部份完整介紹海量資料在各產業的應用實況,為企業及政府部門提供應用的方向。案例涵蓋零售、金融、政府部門、能源、製造、娛樂、醫療、電信等八大類別,搜羅歐美、澳洲、印度、日本、中國大陸、台灣等地的實際案例,展現海量資料分析產生的效益。
  第三部份則概略介紹海量資料分析所需技術及未來發展趨勢,提供企業主管、以及對資料分析有興趣的學生、研究者應用與研究的方向。
第一本是Big Data大數據的獲利模式:圖解.案例.策略.實戰,作者是日本人(城田真琴),經濟新潮社出版,網址在此,以下摘錄博客來的介紹(列出章節)
  1. 什麼是巨量資料
  2. 支撐巨量資料的技術
  3. 以巨量資料為核心的企業(歐美企業篇)
  4. 以巨量資料為核心的企業(日本企業篇)
  5. 巨量資料的應用模式
  6. 巨量資料時代的隱私權問題
  7. 開放資料時代的到來與資料市場的興盛
  8. 面對巨量資料時代該有的準備
簡而言之,兩本書的開頭都是告訴讀者何謂海量(或巨量)資料,再來以案例告訴讀者如何應用海量資料進行各項活動(大部份是預測與決策),其中務必要介紹一下相關技術(IBM、Amazon、Google各家公司的行銷洗腦),最後,科技的負面影響(例如隱私權、SOA等),所以各位會對那一本書的內容比較有興趣呢?多讀書沒事、沒事多讀書

2013年6月21日 星期五

n-gram的應用


關於文字探勘(Text mining)的應用還很多,Datamining for the masses一書只講到Clustering而已,但是其中有提到n-gram,因此,我最近在網路上找到這個部落客的文章,提供給各位參考!!

摘自Ease, of Something, n-gram

n-gram,語言,與其他符號
n-gram, the final frontier, 喔,不是,更正:是一種統計模型,源自於夏農Claude  Shannon)的資訊理論information theory),而主要應用在「自然語言處理」(natural language processing)跟「基因序列分析」(genetic sequence analysis)的研究上

拿「天氣」當作例子,不過這次講的是「天」跟「氣」的關係:當「天」這個字出現的時候,後面接著是「氣」這個字的機率是多少?相信說到這裏,有用過各種中文輸入法的人,大概都已經知道關於這種「關係」的知識應用到生活中的哪些地方了。而這種知識的基礎,「字頻」跟「詞頻」,也是構成 n-gram 模型的基礎。

中文的「字」是文字的最小單位,也就是 n=1 的狀況,稱作 unigram (uni 即「單一」),一種語言的「字頻」也就是該語言的 unigram model。從馬可夫鏈的角度來看,因為前後的關係項為零,這是一種「0 階馬可夫鏈」。

然後是「二字詞」,就像前面說的「天氣」,「天」後面接著各種字的機率,構成了 n=2 的狀況,bigram(bi 是「二」的字首),這也是一種一階馬可夫鏈:前一個狀態跟下一個狀態的關係。依此類推,我們可以進一步去建立 n=3,4,5... 的統計模型,而這些模型的集合,就是所謂的 n-gram 模型。

希望能找到更多用Rapidminer做出來的實例

2013年6月14日 星期五

資料可視化

這一年來陸陸續續聽到系上和其他演講中提到一個未來傳播的趨勢,那就是Infographic + Dashboard,因此,我也一直把一些好用的軟體介紹給學生,今天要介紹的是另一個新興之星,名叫Tableau,目前有兩個版本,一個是Tableau public,另外是一個是Tableau Desktop,主要功能是結合資料可視化和商業決策,將複雜的資料、甚至是海量資料,用最即時、互動的方式呈現給觀眾。

在說明之前,先給各位看一下我的拙作,由於還在學習當中,做得並不美觀,請見諒。



2013年6月6日 星期四

Internet的發展趨勢(by KPCB)

有「網路女王」封號的創投公司KPCB合夥人瑪麗.米克(Mary Meeker),又和Liang Wu聯手在D11 Conference發表KPCB Internet Trends 2013,其內容均受到不同產業界及投資大眾的興趣,其中跟Big Data相關的資料有:

  • 未來聲音與數據將是主導Big Data的來源。
  • 人們目前在電視的收看和廣告仍是最多,但行動和網路方面的使用量已超過其他媒體,如印刷媒體、廣播、電影等。
  • 未來人們在網路上使用的內容將持續圍繞在搜尋(Findable)、分享(Sharing)和標示(Tagged)上,例如照片、影片和聲音等資訊,所以可以預期資料探勘下一個結合的可能就是語音和圖像辨識的功能,這也正是Google的強項。
有興趣的同學不妨看一下整個簡報的內容!!


2013年5月30日 星期四

關於Data Mining的基本觀念

本週創紀錄的連發兩篇文章,希望大家不會覺得很煩!! 本週在找資料的時候,無意中發現了這個部落格,我覺得他把Data mining的基本概念整理的很好,尤其是下面有針對關連性法則的詳細說明,所以我提出來跟大家分享,所以如何大家有發現什麼好站,也歡迎推薦給我喔!! 感謝

宅學習網址

底下還有針對心智圖的筆記,大家也不妨試試,我個人是用Xmind,所以如果有任何問題,也可以討論喔!!


集群分析(K-Means Clustering)

    想說很久沒有發文了,再不發文可能就會一直拖下去,看來寫部落格應該也是培養一種習慣吧!! 上週在找教學範例檔的時候,無意發現了這個網站「Analytics and Visualization of Big Data」,裏面有cover一些資料探勘的內容,如:如何用RapidMiner做集群分析(K-Means Clustering)的教學(Tutorial),雖然沒有影片,但是有Step-by-Step的操作畫面,所以,有興趣的同學可以去參考一下。

網址在此

    另外,想到之前上課一直沒有講到的地方,就是RapidMiner本身就有教學的範例,如果你想要多練習、多觀摩,可以使用軟體本身的例子,範例檔的位置就在一開啟Rapidminer資料庫(Repository)的時候,一般我們會在DB下面建立我們自己的資料庫,在樹狀資料的最上方有個Sample,展開後就會發現有Data和Process兩個目錄匣,可以在裏面找到教科書中有涵蓋和沒有涵蓋的程序,例如SVM、Validation等,可以學習到進階的資料分析方式。至於Data,則可以配合YouTube上的Tutorial或是利用學過的分析方法(例如相關性分析、關連法、迴歸等)則加以分析,各位同學可以先將資料拉進RapidMiner看看資料的內容,再決定選擇那一種分析方式即可。

使用Rapidminer操作SVM的教學影片如下:

使用Rapidminer操作Cross-validation的教學影片如下:


2013年5月21日 星期二

RapidMiner與其他資料探勘軟體的比較

我又發現了一個網站,把市面上常見的開放源碼做資料探勘的軟體羅列比較,但由於沒時間翻譯,因此,我把連結貼出來,希望有興趣的人自己上網參考。

網站AI Computer Vision

比較一

比較二

相較於貴森森的SPSS、SAS,RapidMiner在各方面的表現(ex. 文件處理、圖形化介面、操作簡易、指令敘述與演算法)均在中上水準。

以下是我直接把作者覺得的優點和缺點貼上給各位參考

RapidMiner

RapidMiner is an open source statistical and data mining package written in Java.
  • Solid and complete package.
  • It easily reads and writes Excel files and different databases.
  • You program by piping components together in a graphic ETL work flows.
  • If you set up an illegal work flows RapidMiner suggest Quick Fixes to make it legal.
Issues:
  • I only got it to works under Windows, but others have gotten it to work in other environments, see comment below.
  • There are a lot of different ETL modules; it took a while to understand how to use them.
  • First I had a hard time making a comparison between different models. Eventually I found a way: You chose a cross validation and select different models one by one. When you run the model the will all be stored on the result page and you can do comparison there.

希望以上資訊對各位學習上

資料探勘與資料庫行銷專題

使用軟體:RapidMiner 5.0版

軟體優點:不需要瞭解複雜的演算法、資料結構與撰寫程式的能力

下載位置:Rapid-i.com網站(需註冊後下載) Dropbox載點

教材檔案


教科書:Data Mining for the Masses

Amazon的介紹

課程進度

第一週  軟體安裝、操作介面介紹、資料準備、相關性分析(Correlation)

第二週  關連分析(Association Rules)、集群分析(K-Means Clustering)、區別分析(Discriminant Analysis)

第三週  線性迴歸分析(Linear Regression)、羅吉斯分析(Logistic Regression)

第四週  決策樹(Decision Trees)、社群網絡分析(SNA)

第五週  類神經網路 (Neural Network)

第六週  文字探勘(Text Mining)、網頁探勘(Web Mining)

章節導讀

Step 1. 個案內容
Step 2. 瞭解資料類型與資料分析的目的(ex. 解決問題或輔助決策)
Step 3. 資料準備 (ex. 檢視資料是否完整或遺漏值)
Step 4. 建立資料分析模型 (ex. 分類、預測還是兩者都有) 
Step 5. 結果評估 (ex. 統計結果、因果邏輯、交叉驗證)
Step 6. 成果報告 (ex. 簡報結果、與客戶交換意見與資料儲存)

上課注意事項
  • 因為課程時間很短,儘量每週都能出席。
  • 範例檔或操作結果請儲存在隨身碟或雲端,以便每次上課時使用。
  • 鼓勵帶自己的資料來分析,在每堂課結束前可留半小時提問。
  • 可多利用網路資源(ex. YouTube或社群討論),輔助學習。
個人心得分享:
網路資料無窮無盡、免費且方便取得,分析工具眾多,電腦運算能力強大,在Big Data海量資料分析的時代,只有懂得問對問題的人才能挖到真正的金礦。

2013年5月20日 星期一

RapidMiner在YouTube上的教學影片

    開發開放源碼的資料探勘軟體RapidMiner的公司Rapid-i有一個YouTube的專屬頻道(名稱是Rapid-I: OS Business Analytics),目前上面有17隻影片,大部份是講分析工具RapidAnalytics的用法,總共有1-9個單元,也有RapidMiner的影片,所以,想要學習RapidMiner和RapidAnalytics的人不要錯過囉!!不過,講者和內容都是英文,如果英文聽力有點吃力的讀者,可以試著打開YouTube字幕翻譯的功能,應該多少可以瞭解大概的內容。

頻道的連結在此 


2013年4月28日 星期日

走在時尚前端的Zara用Big Data打敗LV, H&M

這一期的Wired Taiwan主題介紹Big Data,看來應該去買本雜誌來瞧瞧裏面寫了什麼內容。
以下摘錄自TechOrange網站,我認為比較精華的部份


  • 以線上店為實體店的前測指標
2010 年秋天,Zara 的 Big Data 系統,向前邁開更大一步。
Zara 一口氣在六個歐洲國家成立網路商店,增添了網路巨量資料的串連性。隔年,分別在美國、日本建構網路平台,除了增添營收,線上商店強化了雙向搜尋引擎、資料分析的功能。不僅回報意見給生產端,讓決策者精準找出目標市場,對消費者提供更準確的時尚訊息,雙方都能享受 Big Data 帶來的好處。分析師預估,網路商店為 Zara 至少提升了 10% 營收。
此外,線上商店除了交易行為,也是活動產品上市前的行銷試金石。Zara 通常先在網路上舉辦消費者意見調查,再從網民回饋中,擷取顧客意見,以此改善實際出貨的產品。
在實體的消費行為中,很難立即分析出不同消費族群的偏好。然而,網路上的行銷活動,消費者每一筆點選過的資料、停留時間、下單數量、單次購買金額,都會被記錄在交易系統內,送到 Zara 系統中樞建擋。產品區隔化和生產目標客群,不需要真正出貨,網路資料一覽無遺。
因此,Zara 將網路上的巨量資料視為實體店面的前測指標。會在網路上搜尋時尚資訊的人,對服飾的喜好、資訊的掌握,催生潮流的能力,比一般大眾更前衛。再者,會在網路上搶先得知 Zara 資訊的族群,進實體店面消費的比率也很高。Zara 選擇迎合網民喜歡的產品或趨勢,果然在實體店面的銷售成績,依舊亮眼。
這些珍貴的顧客資料,除了應用在生產端,同時被整個 Zara 所屬的英德斯(Inditex)集團各部門運用:包含客服中心、行銷部、設計團隊、生產線和通路等。根據這些巨量資料,形成各部門的關鍵績效指標(Key Performance Indicators),進而完成 Zara 內部的垂直整合主軸。

有什麼其他的心得,等我看了雜誌再分享!!


2013年4月27日 星期六

RapidMiner教材

由於這學期要教授Datamining課程,我遍尋簡單又好上手的教材,但無奈台灣使用RapidMiner的人實在太少了,對岸有一些參考資料,但多半是一些影片而不是完整的教材,倒是有搜尋到徵教Rapidminer的人,酬勞還不少呢!也許將來教材做好之後還可以拿來賣錢(旁白:想太多)。不過後來在RapidMiner官網上看到一絲希望,Dr. North針對Rapidminer寫了一本書,書名叫Datamining for the Masses,正合我意。Amazon有賣,但是無奈國內也沒有中文書,但好在內容真的是淺顯易懂啊,還附上資料檔,可以直接按步驟操作,有沒有那麼容易啊,不懂Datamining的演算法也可以跑出資料,這真是太神奇了!!

Amazon的介紹在此,一本書$39.9元。書中的參考範例檔放在Google雲端硬碟上,隨時可以下載使用
(範例檔網址)


由於RapidMiner是一個開放源碼的軟體,因此,我推薦本書給想要學習Datamining,但又不想花錢購買軟體的使用者。

關於作者的簡歷,由於無暇翻譯,提供Amazon上的介紹給大家參考
Dr. Matthew North is Associate Professor of Computing and Information Studies at Washington & Jefferson College in Washington, Pennsylvania, USA. He has taught data management and data mining for more than a decade, and previously worked in industry as a data miner, most recently at eBay.com. He continues to consult with various organizations on data mining projects as well. Dr. North holds a Bachelor of Arts degree in Latin American History and Portuguese from Brigham Young University; a Master of Science in Business Information Systems from Utah State University; and a Doctorate in Technology Education from West Virginia University. He is the author of the book Life Lessons & Leadership (Agami Press, 2011), and numerous papers and articles on technology and pedagogy. His dissertation, on the topic of teaching models and learning styles in introductory data mining courses, earned him a New Faculty Fellows award from the Center for Advancement of Scholarship on Engineering Education (CASEE); and in 2010, he was awarded the Ben Bauman Award for Excellence by the International Association for Computer Information Systems (IACIS). He lives with his wife, Joanne, and their three daughters in southwestern Pennsylvania.



2013年4月23日 星期二

RapidMiner的最新版本v5.3


The Rapid-I Marketplace provides a unique opportunity for developers to reach the large and growing community of RapidMiner customers. Extensions can be offered free of charge or for a payment determined by the developer. In the latter case, developers retain 70 percent of revenues generated by each download.
由於英文一直是推廣開放源碼App的一大障礙,因此,我把RapidMiner 5.3版本有那些新功能翻譯一下,也許會有使用者會想要嘗試看看。
5.3版新功能:
  • 新增超過20種以上的函式庫,可用來分析和處理資料,包括多重加總函式。
  • 新增檔案總管,包括移動、重新命名、複製、新增分類和刪除檔案。
  • 新增新的總覽介面,可以在程序執行時同時秀出其數據,以方便除錯。

Rapid-I同時也推出了RapidAnalytics伺服器版本1.3,可以直接讓非專門使用者可以產生web介面的資料串和視覺化,這個以JavaScript的新API可以增加互動性、了解執行緒列也增加執行的效率。這個版本也增加了在報告中秀出檔案物件以及讓使用者透過資料儀表板在Excel或其他檔案中自行定義資料。RapidAnalytics伺服器版本將於下個月推出。
關於Rapid-I公司
Rapid-I公司提供預測分析、資料探勘和文字探勘等相關的軟體、解決方案和服務,該公司的旗艦產品RapidMiner是一個世界知名的開放源碼系統,可以用來探究知識、資料探勘和語意分析。RapidMiner的特點是非常容易上手、執行速度快並且可以與任何IT基礎環境整合,不論是最小的文字檔案或是如同Hadoop群集的海量資料都沒問題。更詳細的說明請參見官網,網址為http:// www.rapid-i.com.

2013年4月22日 星期一

資料視覺化-TED演講

在收集、組合、分析完海量資料(Big Data)後,如何清楚且有效的告訴世人分析的結果呢?資料視覺化(Data Visualization)的能力將在雲端運算與Big Data時代顯得特別重要,這裡有一個很好的演講,演講者也出了一系列有關資料視覺化的書。



 這也不禁讓我聯想到最近看的一本書,書名叫做「雲端經濟4強決戰(The War, Now-Post-PC Big4」,博客來的介紹在此,該書也用視覺化的方式圖解 Apple、Google、Facebook與Amazon在雲端上的策略,因此,我的結論是資料分析與呈現將是未來的趨勢。




RapidMiner的介紹


搜尋Google發現了對岸有一個針對Rapidminer的說明,由於內容是簡體,因此,我特定用Word軟體轉換了一下內容。
RapidMiner資料採擷入門之一:概要
1.簡介
RapidMiner原名Yale,它是用於資料採擷、機器學習、商業預測分析的開源計算環境。根據KDnuggets2011年的一次投票顯示,從使用率來看該軟體比之R語言還要略勝一籌。因為其具備GUI特性,所以很適合於資料採擷的初學者入門。
RapidMiner提供的資料採擷和機器學習程式包括:資料載入和轉換(ETL),資料預處理和視覺化,建模,評估和部署。資料採擷的流程是以XML檔加以描述,並通過一個圖形化使用者介面顯示出來。RapidMiner是由Java程式設計語言編寫的,其中還集成了WEKA的學習器和評估方法,並可以與R語言進行協同工作。

2 學習資源軟體的説明功能表中自帶了26tutorial,可以幫助用戶進行基本入門。另外在sample有也有不錯的案例資料和流程可供參考學習。從官方網站可以下載到一份簡單的用戶手冊,另外還有相應的資源站提供了很好的視頻教程。

3 基本概念 rapidminer中的功能均是通過連接各類運算元(operataor)形成流程(process)來實現的,整個流程可以看做是工廠車間的生產線,輸入原始資料,輸入出模型結果。運算元可以看做是執行某種具體功能的函數,不同運算元有不同的輸入輸出特性。
大體上有這樣幾類運算元:

4 建模一般流程


· 流程控制類,是為了實現迴圈和條件功能。
· 資料登錄和輸出類,是為了實現資料交換。
· 資料轉換類,包括各種資料抽取、清洗整理功能;
· 建模類,包括分類回歸建模,關聯分析、聚類分析、集成學習等功能。
· 評估類,包括多重交叉檢驗,自助法檢驗等功能

軟體有兩個主要的工作區,一個是流程設計工作區,本區左側可以看到各類運算元和庫,中間的主流程設計區,下方是錯誤提示區,右側是參數設置區。另一個是結果顯示工作區。


將運算元拖入主流程工作區後,它會以一個方箱形式呈現,不同的顏色暗示著不同的函數功能。箱體左側是輸入介面,對應著輸入類型的縮寫。右側對應輸出介面和相應縮寫。左下角會有三種顏色的狀態燈,紅燈表示關於該運算元的設置錯誤,黃燈表示設置正常但還未進行過執行操作,綠燈表示設置正常且已經進行過執行操作。


在建模時,變數(attributes)會分為兩個大類,普通變數稱為regular,而目標變數稱為label。這在有監督學習時需要特別留意。從資料特徵來分,又可分為數值變數numeric,分類變數nominal,其中又有兩值分類變數binominal,多值分類變數polynominal。不同的運算元對於輸入資料的類型有著不同的要求,這點需要在運算元説明中仔細閱讀。
·新建一個資料庫(Repository)。
·選擇需要的運算元(operator)放入主流程(main process)中。
·設置運算元相關參數 (parameter)。
·進行運算元連接。
·執行流程以得到結果

2013年4月21日 星期日

RapidMiner課程101


運用海量資料(Big data)分析資料建立商業決策日益重要,另外,目前市面上商業與開放源碼(Opensource)的工具很多,但是各有不同的特點,因此,我特別規劃了這一個部落格來介紹Datamining一個好用的工具--RapidMiner,但由於RapidMiner在台灣使用者並不多,因此,未來我也希望透過資料的收集,可以將RapidMiner的知識推廣給其他的使用者。


  • RapidMiner的介紹 (Wiki)
由於RapidMiner屬開放源碼的工具,因此,在官網上除了Rapidminer主程式外,這家德國的公司也推出許多相關的軟體及訓練課程,也有使用者社群供使用者詢問和討論,另外,如果有特殊的應用程式需求,也可以到社群上找付費的程式。
  • RapidMiner的官方網站 (Rapid-i)
另外,關於RapidMiner的操作與應用,有兩個使用者網站相當熱心,提供YouTube影片和範例教導如何使用這套軟體。這兩個網站分別是:

而我個人則將使用Datamining for the Masses這本書的內容做為教學的參考資料,但由於此書在台灣並無人翻譯,因此,請先參考Amazon上的介紹。這本書有幾個特點:
  • 書中的內容敘述偏向口語,因此,很容易理解。
  • 有Step-by-Step的操作,只要按照步驟操作即可。
  • 提供範例檔下載(Google docs)。
Dataming的主程式可以從官網下載,還有其他的擴充套件(例如Text processing),但很可惜的目前只支援windows系統,Mac使用者就沒辦法用,先介紹到此,後續會有更多的教學內容和教學資源,敬請期待。