2013年6月21日 星期五

n-gram的應用


關於文字探勘(Text mining)的應用還很多,Datamining for the masses一書只講到Clustering而已,但是其中有提到n-gram,因此,我最近在網路上找到這個部落客的文章,提供給各位參考!!

摘自Ease, of Something, n-gram

n-gram,語言,與其他符號
n-gram, the final frontier, 喔,不是,更正:是一種統計模型,源自於夏農Claude  Shannon)的資訊理論information theory),而主要應用在「自然語言處理」(natural language processing)跟「基因序列分析」(genetic sequence analysis)的研究上

拿「天氣」當作例子,不過這次講的是「天」跟「氣」的關係:當「天」這個字出現的時候,後面接著是「氣」這個字的機率是多少?相信說到這裏,有用過各種中文輸入法的人,大概都已經知道關於這種「關係」的知識應用到生活中的哪些地方了。而這種知識的基礎,「字頻」跟「詞頻」,也是構成 n-gram 模型的基礎。

中文的「字」是文字的最小單位,也就是 n=1 的狀況,稱作 unigram (uni 即「單一」),一種語言的「字頻」也就是該語言的 unigram model。從馬可夫鏈的角度來看,因為前後的關係項為零,這是一種「0 階馬可夫鏈」。

然後是「二字詞」,就像前面說的「天氣」,「天」後面接著各種字的機率,構成了 n=2 的狀況,bigram(bi 是「二」的字首),這也是一種一階馬可夫鏈:前一個狀態跟下一個狀態的關係。依此類推,我們可以進一步去建立 n=3,4,5... 的統計模型,而這些模型的集合,就是所謂的 n-gram 模型。

希望能找到更多用Rapidminer做出來的實例

2013年6月14日 星期五

資料可視化

這一年來陸陸續續聽到系上和其他演講中提到一個未來傳播的趨勢,那就是Infographic + Dashboard,因此,我也一直把一些好用的軟體介紹給學生,今天要介紹的是另一個新興之星,名叫Tableau,目前有兩個版本,一個是Tableau public,另外是一個是Tableau Desktop,主要功能是結合資料可視化和商業決策,將複雜的資料、甚至是海量資料,用最即時、互動的方式呈現給觀眾。

在說明之前,先給各位看一下我的拙作,由於還在學習當中,做得並不美觀,請見諒。



2013年6月6日 星期四

Internet的發展趨勢(by KPCB)

有「網路女王」封號的創投公司KPCB合夥人瑪麗.米克(Mary Meeker),又和Liang Wu聯手在D11 Conference發表KPCB Internet Trends 2013,其內容均受到不同產業界及投資大眾的興趣,其中跟Big Data相關的資料有:

  • 未來聲音與數據將是主導Big Data的來源。
  • 人們目前在電視的收看和廣告仍是最多,但行動和網路方面的使用量已超過其他媒體,如印刷媒體、廣播、電影等。
  • 未來人們在網路上使用的內容將持續圍繞在搜尋(Findable)、分享(Sharing)和標示(Tagged)上,例如照片、影片和聲音等資訊,所以可以預期資料探勘下一個結合的可能就是語音和圖像辨識的功能,這也正是Google的強項。
有興趣的同學不妨看一下整個簡報的內容!!