2013年4月28日 星期日

走在時尚前端的Zara用Big Data打敗LV, H&M

這一期的Wired Taiwan主題介紹Big Data,看來應該去買本雜誌來瞧瞧裏面寫了什麼內容。
以下摘錄自TechOrange網站,我認為比較精華的部份


  • 以線上店為實體店的前測指標
2010 年秋天,Zara 的 Big Data 系統,向前邁開更大一步。
Zara 一口氣在六個歐洲國家成立網路商店,增添了網路巨量資料的串連性。隔年,分別在美國、日本建構網路平台,除了增添營收,線上商店強化了雙向搜尋引擎、資料分析的功能。不僅回報意見給生產端,讓決策者精準找出目標市場,對消費者提供更準確的時尚訊息,雙方都能享受 Big Data 帶來的好處。分析師預估,網路商店為 Zara 至少提升了 10% 營收。
此外,線上商店除了交易行為,也是活動產品上市前的行銷試金石。Zara 通常先在網路上舉辦消費者意見調查,再從網民回饋中,擷取顧客意見,以此改善實際出貨的產品。
在實體的消費行為中,很難立即分析出不同消費族群的偏好。然而,網路上的行銷活動,消費者每一筆點選過的資料、停留時間、下單數量、單次購買金額,都會被記錄在交易系統內,送到 Zara 系統中樞建擋。產品區隔化和生產目標客群,不需要真正出貨,網路資料一覽無遺。
因此,Zara 將網路上的巨量資料視為實體店面的前測指標。會在網路上搜尋時尚資訊的人,對服飾的喜好、資訊的掌握,催生潮流的能力,比一般大眾更前衛。再者,會在網路上搶先得知 Zara 資訊的族群,進實體店面消費的比率也很高。Zara 選擇迎合網民喜歡的產品或趨勢,果然在實體店面的銷售成績,依舊亮眼。
這些珍貴的顧客資料,除了應用在生產端,同時被整個 Zara 所屬的英德斯(Inditex)集團各部門運用:包含客服中心、行銷部、設計團隊、生產線和通路等。根據這些巨量資料,形成各部門的關鍵績效指標(Key Performance Indicators),進而完成 Zara 內部的垂直整合主軸。

有什麼其他的心得,等我看了雜誌再分享!!


2013年4月27日 星期六

RapidMiner教材

由於這學期要教授Datamining課程,我遍尋簡單又好上手的教材,但無奈台灣使用RapidMiner的人實在太少了,對岸有一些參考資料,但多半是一些影片而不是完整的教材,倒是有搜尋到徵教Rapidminer的人,酬勞還不少呢!也許將來教材做好之後還可以拿來賣錢(旁白:想太多)。不過後來在RapidMiner官網上看到一絲希望,Dr. North針對Rapidminer寫了一本書,書名叫Datamining for the Masses,正合我意。Amazon有賣,但是無奈國內也沒有中文書,但好在內容真的是淺顯易懂啊,還附上資料檔,可以直接按步驟操作,有沒有那麼容易啊,不懂Datamining的演算法也可以跑出資料,這真是太神奇了!!

Amazon的介紹在此,一本書$39.9元。書中的參考範例檔放在Google雲端硬碟上,隨時可以下載使用
(範例檔網址)


由於RapidMiner是一個開放源碼的軟體,因此,我推薦本書給想要學習Datamining,但又不想花錢購買軟體的使用者。

關於作者的簡歷,由於無暇翻譯,提供Amazon上的介紹給大家參考
Dr. Matthew North is Associate Professor of Computing and Information Studies at Washington & Jefferson College in Washington, Pennsylvania, USA. He has taught data management and data mining for more than a decade, and previously worked in industry as a data miner, most recently at eBay.com. He continues to consult with various organizations on data mining projects as well. Dr. North holds a Bachelor of Arts degree in Latin American History and Portuguese from Brigham Young University; a Master of Science in Business Information Systems from Utah State University; and a Doctorate in Technology Education from West Virginia University. He is the author of the book Life Lessons & Leadership (Agami Press, 2011), and numerous papers and articles on technology and pedagogy. His dissertation, on the topic of teaching models and learning styles in introductory data mining courses, earned him a New Faculty Fellows award from the Center for Advancement of Scholarship on Engineering Education (CASEE); and in 2010, he was awarded the Ben Bauman Award for Excellence by the International Association for Computer Information Systems (IACIS). He lives with his wife, Joanne, and their three daughters in southwestern Pennsylvania.



2013年4月23日 星期二

RapidMiner的最新版本v5.3


The Rapid-I Marketplace provides a unique opportunity for developers to reach the large and growing community of RapidMiner customers. Extensions can be offered free of charge or for a payment determined by the developer. In the latter case, developers retain 70 percent of revenues generated by each download.
由於英文一直是推廣開放源碼App的一大障礙,因此,我把RapidMiner 5.3版本有那些新功能翻譯一下,也許會有使用者會想要嘗試看看。
5.3版新功能:
  • 新增超過20種以上的函式庫,可用來分析和處理資料,包括多重加總函式。
  • 新增檔案總管,包括移動、重新命名、複製、新增分類和刪除檔案。
  • 新增新的總覽介面,可以在程序執行時同時秀出其數據,以方便除錯。

Rapid-I同時也推出了RapidAnalytics伺服器版本1.3,可以直接讓非專門使用者可以產生web介面的資料串和視覺化,這個以JavaScript的新API可以增加互動性、了解執行緒列也增加執行的效率。這個版本也增加了在報告中秀出檔案物件以及讓使用者透過資料儀表板在Excel或其他檔案中自行定義資料。RapidAnalytics伺服器版本將於下個月推出。
關於Rapid-I公司
Rapid-I公司提供預測分析、資料探勘和文字探勘等相關的軟體、解決方案和服務,該公司的旗艦產品RapidMiner是一個世界知名的開放源碼系統,可以用來探究知識、資料探勘和語意分析。RapidMiner的特點是非常容易上手、執行速度快並且可以與任何IT基礎環境整合,不論是最小的文字檔案或是如同Hadoop群集的海量資料都沒問題。更詳細的說明請參見官網,網址為http:// www.rapid-i.com.

2013年4月22日 星期一

資料視覺化-TED演講

在收集、組合、分析完海量資料(Big Data)後,如何清楚且有效的告訴世人分析的結果呢?資料視覺化(Data Visualization)的能力將在雲端運算與Big Data時代顯得特別重要,這裡有一個很好的演講,演講者也出了一系列有關資料視覺化的書。



 這也不禁讓我聯想到最近看的一本書,書名叫做「雲端經濟4強決戰(The War, Now-Post-PC Big4」,博客來的介紹在此,該書也用視覺化的方式圖解 Apple、Google、Facebook與Amazon在雲端上的策略,因此,我的結論是資料分析與呈現將是未來的趨勢。




RapidMiner的介紹


搜尋Google發現了對岸有一個針對Rapidminer的說明,由於內容是簡體,因此,我特定用Word軟體轉換了一下內容。
RapidMiner資料採擷入門之一:概要
1.簡介
RapidMiner原名Yale,它是用於資料採擷、機器學習、商業預測分析的開源計算環境。根據KDnuggets2011年的一次投票顯示,從使用率來看該軟體比之R語言還要略勝一籌。因為其具備GUI特性,所以很適合於資料採擷的初學者入門。
RapidMiner提供的資料採擷和機器學習程式包括:資料載入和轉換(ETL),資料預處理和視覺化,建模,評估和部署。資料採擷的流程是以XML檔加以描述,並通過一個圖形化使用者介面顯示出來。RapidMiner是由Java程式設計語言編寫的,其中還集成了WEKA的學習器和評估方法,並可以與R語言進行協同工作。

2 學習資源軟體的説明功能表中自帶了26tutorial,可以幫助用戶進行基本入門。另外在sample有也有不錯的案例資料和流程可供參考學習。從官方網站可以下載到一份簡單的用戶手冊,另外還有相應的資源站提供了很好的視頻教程。

3 基本概念 rapidminer中的功能均是通過連接各類運算元(operataor)形成流程(process)來實現的,整個流程可以看做是工廠車間的生產線,輸入原始資料,輸入出模型結果。運算元可以看做是執行某種具體功能的函數,不同運算元有不同的輸入輸出特性。
大體上有這樣幾類運算元:

4 建模一般流程


· 流程控制類,是為了實現迴圈和條件功能。
· 資料登錄和輸出類,是為了實現資料交換。
· 資料轉換類,包括各種資料抽取、清洗整理功能;
· 建模類,包括分類回歸建模,關聯分析、聚類分析、集成學習等功能。
· 評估類,包括多重交叉檢驗,自助法檢驗等功能

軟體有兩個主要的工作區,一個是流程設計工作區,本區左側可以看到各類運算元和庫,中間的主流程設計區,下方是錯誤提示區,右側是參數設置區。另一個是結果顯示工作區。


將運算元拖入主流程工作區後,它會以一個方箱形式呈現,不同的顏色暗示著不同的函數功能。箱體左側是輸入介面,對應著輸入類型的縮寫。右側對應輸出介面和相應縮寫。左下角會有三種顏色的狀態燈,紅燈表示關於該運算元的設置錯誤,黃燈表示設置正常但還未進行過執行操作,綠燈表示設置正常且已經進行過執行操作。


在建模時,變數(attributes)會分為兩個大類,普通變數稱為regular,而目標變數稱為label。這在有監督學習時需要特別留意。從資料特徵來分,又可分為數值變數numeric,分類變數nominal,其中又有兩值分類變數binominal,多值分類變數polynominal。不同的運算元對於輸入資料的類型有著不同的要求,這點需要在運算元説明中仔細閱讀。
·新建一個資料庫(Repository)。
·選擇需要的運算元(operator)放入主流程(main process)中。
·設置運算元相關參數 (parameter)。
·進行運算元連接。
·執行流程以得到結果

2013年4月21日 星期日

RapidMiner課程101


運用海量資料(Big data)分析資料建立商業決策日益重要,另外,目前市面上商業與開放源碼(Opensource)的工具很多,但是各有不同的特點,因此,我特別規劃了這一個部落格來介紹Datamining一個好用的工具--RapidMiner,但由於RapidMiner在台灣使用者並不多,因此,未來我也希望透過資料的收集,可以將RapidMiner的知識推廣給其他的使用者。


  • RapidMiner的介紹 (Wiki)
由於RapidMiner屬開放源碼的工具,因此,在官網上除了Rapidminer主程式外,這家德國的公司也推出許多相關的軟體及訓練課程,也有使用者社群供使用者詢問和討論,另外,如果有特殊的應用程式需求,也可以到社群上找付費的程式。
  • RapidMiner的官方網站 (Rapid-i)
另外,關於RapidMiner的操作與應用,有兩個使用者網站相當熱心,提供YouTube影片和範例教導如何使用這套軟體。這兩個網站分別是:

而我個人則將使用Datamining for the Masses這本書的內容做為教學的參考資料,但由於此書在台灣並無人翻譯,因此,請先參考Amazon上的介紹。這本書有幾個特點:
  • 書中的內容敘述偏向口語,因此,很容易理解。
  • 有Step-by-Step的操作,只要按照步驟操作即可。
  • 提供範例檔下載(Google docs)。
Dataming的主程式可以從官網下載,還有其他的擴充套件(例如Text processing),但很可惜的目前只支援windows系統,Mac使用者就沒辦法用,先介紹到此,後續會有更多的教學內容和教學資源,敬請期待。