2013年11月12日 星期二

Metadata視覺化

昨天在觀看TED影片的時候,發現了一個有趣的網站,也是跟資料視覺化的議題有關,是兩個MIT Media Lab的學生做的一個專題計劃,他們稱之為Immersion,影片在此

The Power of Metadata



操作Demo介紹
https://immersion.media.mit.edu/demo

我自己也做了一個,做法很簡單!
第一步  連接到MIT Media Lab,網址https://immersion.media.mit.edu/
第二步  選擇要分析的帳號,可以選Gmail, Yahoo或Exchange
第三步  授權Immersion服務存取你的帳號,像我是輸入Gmail的帳號和密碼
第四步  E-mail人際溝通網絡的連結就呈現在你眼前,左、右邊還有Dashboard可以觀看時間和對象的分析

每個人與每個人在溝通的過程中都會留下一些紀錄,這些紀錄的量(例如頻率和對象)再加上時間區間就構成了一個個不同的人際溝通網絡,因此,目前學術研究人際溝通的部份多半從單一方向和對象研究,因此,很難看到人際溝通的全貌,在研究方法和測量工具上也許將來海量資料可以幫我們解決一部份的問題,但是人們內心的動機和偏好,卻很難從資料中得知,以上資訊提供給各位參考!!

2013年8月26日 星期一

Big Data by MrJamie

之初創投的Jamie今天寫了一篇Big Data的文章,標題是Data Disruption,我想作者將原文打上可能是怕翻譯成中文反而毀了原本的意義。原文的內容連結在此,摘錄如下:

理想上,當要評估一個人的還款風險,應該是要把所有關於他的數據 ── 喜歡做什麼運動、吃什麼東西、交哪些朋友、家人的財務與健康情況,全部都拿來綜合分析,因而去動態反映出他此時此刻的風險係數。而因為網路與行動上網的普及,我們離那個地方越來越近。美國 Lenddo 已經開始會去分析貸款者的 Facebook 朋友圈,用得來的結果去調整貸款者的風險指標。德國的 Kreditech 甚至會綜合考量高達 8,000 種數據來源,再決定要用什麼利率放款給你。
而貸款其實只是這中間的一個小小例子,全觀的看,網路就像是 Cygnus X-1 旁的藍色巨星一樣,提供了前所未有的資料種類與數量,懂得如何運用的企業,將能夠把它轉化為商業上的價值,完全顛覆既有產業的運作模式。
Data Disruption,是我們這個時代,正在進行的巨大革命。在這裡要討論兩個議題,
  • 傳統行銷vs. 網路行銷。
  • Big Data的商業模式。

傳統行銷4P顯然無法精確告訴行銷者要如何精確打中那些看不到的消費者,雖然很多坊間的教科書還是把4P改良應用在網路行銷上,但整個思維、操作手法甚至遊戲規則已經完全改變了,4P沒有一項是可以解釋如何讓企業變成消費者個人的臉書朋友,4P也沒有辦法教我們如何利用Google或FB找出顧客在看什麼,或是他的朋友喜歡什麼,因此,我認同4P仍然是虛實整合上一個重要的理論,但是在面對看不到的消費者,我們需要學習更多、更新的工具和資訊來幫助我們做更好的行銷策略。
Big Data在各界鼓吹之下,包含數位時代、科技橘報、Wired中文版、Inside硬塞等,意圖營造出未來前(或錢)景無窮的樣貌,但是很多商業模式被國內的法令(個資法或資訊安全)限制住,加上政府Open Data的速度緩慢,所以Big Data就如同過去政府鼓吹數位匯流(Convergence),會不會要等個十年才會開始看到一線曙光呢?希望不會

2013年7月30日 星期二

HTML5文字雲

今天在查文字雲的時候,意外發現這個網站,還提供了很多好玩的文字雲應用

部落格原文的來源在此

【HTML5 文字雲-文章詞彙分析機】
體驗網址:http://timc.idv.tw/wordcloud/
原始碼:https://github.com/timdream/wordcloud
授權方式:MIT 授權
使用技術:自製的 N-gram 演算法(使用於製作中文文字雲)、Porter Stemming Algorithm(使用於製作英文文字雲)、HTML5 canvas、HTML5 FileReader API、HTML5 Web Workers API、Javascript 1.6 新 Array 函式

使用者可以從自選範例中瞭解在內容網站上,那些關鍵字(或詞彙)是比較重要的~

歡迎大家使用後告訴我心得~感謝

補充:我自己做的範例給大家參考

2013年7月29日 星期一

關於海量資料(大數據)的書籍

最近在參考下學期要教書的教材,在博客來搜尋海量資料的時候,發現了這兩本題材很類似的書,因此,摘錄博客來網站的資料給各位參考一下!!

第一本是雲端時代的殺手級應用(作者是胡世忠),天下文化出版,網址在此


以下摘錄博客來的介紹

第一部份介紹海量資料分析的概念,以及企業、政府部門可應用的範疇。什麼是海量資料分析?與個人和企業有什麼關係?將對全球產業造成怎樣的衝擊?第一章至第三章將深入淺出地回答上述問題。
  第二部份完整介紹海量資料在各產業的應用實況,為企業及政府部門提供應用的方向。案例涵蓋零售、金融、政府部門、能源、製造、娛樂、醫療、電信等八大類別,搜羅歐美、澳洲、印度、日本、中國大陸、台灣等地的實際案例,展現海量資料分析產生的效益。
  第三部份則概略介紹海量資料分析所需技術及未來發展趨勢,提供企業主管、以及對資料分析有興趣的學生、研究者應用與研究的方向。
第一本是Big Data大數據的獲利模式:圖解.案例.策略.實戰,作者是日本人(城田真琴),經濟新潮社出版,網址在此,以下摘錄博客來的介紹(列出章節)
  1. 什麼是巨量資料
  2. 支撐巨量資料的技術
  3. 以巨量資料為核心的企業(歐美企業篇)
  4. 以巨量資料為核心的企業(日本企業篇)
  5. 巨量資料的應用模式
  6. 巨量資料時代的隱私權問題
  7. 開放資料時代的到來與資料市場的興盛
  8. 面對巨量資料時代該有的準備
簡而言之,兩本書的開頭都是告訴讀者何謂海量(或巨量)資料,再來以案例告訴讀者如何應用海量資料進行各項活動(大部份是預測與決策),其中務必要介紹一下相關技術(IBM、Amazon、Google各家公司的行銷洗腦),最後,科技的負面影響(例如隱私權、SOA等),所以各位會對那一本書的內容比較有興趣呢?多讀書沒事、沒事多讀書

2013年6月21日 星期五

n-gram的應用


關於文字探勘(Text mining)的應用還很多,Datamining for the masses一書只講到Clustering而已,但是其中有提到n-gram,因此,我最近在網路上找到這個部落客的文章,提供給各位參考!!

摘自Ease, of Something, n-gram

n-gram,語言,與其他符號
n-gram, the final frontier, 喔,不是,更正:是一種統計模型,源自於夏農Claude  Shannon)的資訊理論information theory),而主要應用在「自然語言處理」(natural language processing)跟「基因序列分析」(genetic sequence analysis)的研究上

拿「天氣」當作例子,不過這次講的是「天」跟「氣」的關係:當「天」這個字出現的時候,後面接著是「氣」這個字的機率是多少?相信說到這裏,有用過各種中文輸入法的人,大概都已經知道關於這種「關係」的知識應用到生活中的哪些地方了。而這種知識的基礎,「字頻」跟「詞頻」,也是構成 n-gram 模型的基礎。

中文的「字」是文字的最小單位,也就是 n=1 的狀況,稱作 unigram (uni 即「單一」),一種語言的「字頻」也就是該語言的 unigram model。從馬可夫鏈的角度來看,因為前後的關係項為零,這是一種「0 階馬可夫鏈」。

然後是「二字詞」,就像前面說的「天氣」,「天」後面接著各種字的機率,構成了 n=2 的狀況,bigram(bi 是「二」的字首),這也是一種一階馬可夫鏈:前一個狀態跟下一個狀態的關係。依此類推,我們可以進一步去建立 n=3,4,5... 的統計模型,而這些模型的集合,就是所謂的 n-gram 模型。

希望能找到更多用Rapidminer做出來的實例

2013年6月14日 星期五

資料可視化

這一年來陸陸續續聽到系上和其他演講中提到一個未來傳播的趨勢,那就是Infographic + Dashboard,因此,我也一直把一些好用的軟體介紹給學生,今天要介紹的是另一個新興之星,名叫Tableau,目前有兩個版本,一個是Tableau public,另外是一個是Tableau Desktop,主要功能是結合資料可視化和商業決策,將複雜的資料、甚至是海量資料,用最即時、互動的方式呈現給觀眾。

在說明之前,先給各位看一下我的拙作,由於還在學習當中,做得並不美觀,請見諒。



2013年6月6日 星期四

Internet的發展趨勢(by KPCB)

有「網路女王」封號的創投公司KPCB合夥人瑪麗.米克(Mary Meeker),又和Liang Wu聯手在D11 Conference發表KPCB Internet Trends 2013,其內容均受到不同產業界及投資大眾的興趣,其中跟Big Data相關的資料有:

  • 未來聲音與數據將是主導Big Data的來源。
  • 人們目前在電視的收看和廣告仍是最多,但行動和網路方面的使用量已超過其他媒體,如印刷媒體、廣播、電影等。
  • 未來人們在網路上使用的內容將持續圍繞在搜尋(Findable)、分享(Sharing)和標示(Tagged)上,例如照片、影片和聲音等資訊,所以可以預期資料探勘下一個結合的可能就是語音和圖像辨識的功能,這也正是Google的強項。
有興趣的同學不妨看一下整個簡報的內容!!