說起「創作」這檔事,我一直相信是機器走向元學習的必經之路。相較於傳統的分類與回歸,無中生有所要跨越的門檻又更上一層,特別是要創作出繪畫、文章等結構性資料更是難上加難,不過相當有趣的是,這兩項生成式技術在 2014 年均有革命性的突破,對抗式生成網路 (GAN) 能在一輪輪的過招後生成以假亂真的圖片,而 Sequence to Sequence 則扮起了網路詩人,將水光山色拓印在短短幾行的小品之間。
聊天機器人的開發思路
幾天前,我收到了一份來自 San Jose 的 intern 邀請,對方正致力於用深度學習的相關技術,來開發商務用途的對話式介面,因此特別著重在「潛在語意分析」與「自學習」這兩個議題上,這剛好和我目前的研究方向挺類似的,而與對方攀談了不少開發與改進的方向,趁著現在記憶還算清楚,趕緊把這些想法記錄下來。
聊天機器人「眠寶」的雛形,目前仍在開發中
基於詞向量的主題匹配
2016 will be the year of conversational commerce
Chris Messina
在 Facebook 釋出 Messenger API 後,形形色色的 Chatterbot 如雨後春筍般湧現:
Messenger chatbot - from Facebook
「以對話式介面取代圖形化介面」、「2016年將成為對話式商務元年」,種種呼聲儼然令聊天機器人成為了一個 NLP 熱點,這將是一場介面革命,我們所專注的不再是色調與元素的微調,而是去思考如何令機器人在談吐間富含溫度,在語意上理解透徹,在思維上,更貼近一個真實的人。
以 gensim 訓練中文詞向量
最近正在嘗試幾種文本分類的算法,卻一直苦於沒有結構化的中文語料,原本是打算先爬下大把大把的部落格文章,再依 tag 將它們分門別類,可惜試了一陣子後,我見識到了理想和現實間的鴻溝。
所以就找上了基於非監督學習的 word2vec,為了銜接後續的資料處理,這邊採用的是基於 python 的主題模型函式庫 gensim。這篇教學並不會談太多 word2vec 的數學原理,而是考慮如何輕鬆又直覺地訓練中文詞向量,文章裡所有的程式碼都會傳上 github,現在,就讓我們進入正題吧。
淺談Java的常數池
1 | /* |