從零開始的 Sequence to Sequence

發表於 2017-09-28 | 分類於深度學習 |

說起「創作」這檔事，我一直相信是機器走向元學習的必經之路。相較於傳統的分類與回歸，無中生有所要跨越的門檻又更上一層，特別是要創作出繪畫、文章等結構性資料更是難上加難，不過相當有趣的是，這兩項生成式技術在 2014 年均有革命性的突破，對抗式生成網路 (GAN) 能在一輪輪的過招後生成以假亂真的圖片，而 Sequence to Sequence 則扮起了網路詩人，將水光山色拓印在短短幾行的小品之間。

《陽光失了玻璃窗》，一個饒富深意的名字

閱讀全文 »

聊天機器人的開發思路

發表於 2016-12-17 | 分類於自然語言處理 |

幾天前，我收到了一份來自 San Jose 的 intern 邀請，對方正致力於用深度學習的相關技術，來開發商務用途的對話式介面，因此特別著重在「潛在語意分析」與「自學習」這兩個議題上，這剛好和我目前的研究方向挺類似的，而與對方攀談了不少開發與改進的方向，趁著現在記憶還算清楚，趕緊把這些想法記錄下來。

聊天機器人「眠寶」的雛形，目前仍在開發中

閱讀全文 »

基於詞向量的主題匹配

發表於 2016-08-30 | 分類於自然語言處理 |

2016 will be the year of conversational commerce
Chris Messina

在 Facebook 釋出 Messenger API 後，形形色色的 Chatterbot 如雨後春筍般湧現：

Messenger chatbot - from Facebook

「以對話式介面取代圖形化介面」、「2016年將成為對話式商務元年」，種種呼聲儼然令聊天機器人成為了一個 NLP 熱點，這將是一場介面革命，我們所專注的不再是色調與元素的微調，而是去思考如何令機器人在談吐間富含溫度，在語意上理解透徹，在思維上，更貼近一個真實的人。

閱讀全文 »

以 gensim 訓練中文詞向量

發表於 2016-08-28 | 分類於自然語言處理 |

最近正在嘗試幾種文本分類的算法，卻一直苦於沒有結構化的中文語料，原本是打算先爬下大把大把的部落格文章，再依 tag 將它們分門別類，可惜試了一陣子後，我見識到了理想和現實間的鴻溝。

儘管後來還是搞定了

所以就找上了基於非監督學習的 word2vec，為了銜接後續的資料處理，這邊採用的是基於 python 的主題模型函式庫 gensim。這篇教學並不會談太多 word2vec 的數學原理，而是考慮如何輕鬆又直覺地訓練中文詞向量，文章裡所有的程式碼都會傳上 github，現在，就讓我們進入正題吧。

閱讀全文 »

淺談Java的常數池

發表於 2015-11-08 | 分類於程式語言， Java |

/*
 * 	What is the output of this program ?
 *	猜猜看，這個程式的輸出是什麼？
 */

public class ConstantPool {

	public static void main(String[] args) {
		
		ConstantPool cp = new ConstantPool();
		cp.aboutString();
	}
	
	public void aboutString(){
		
		String s1 = "Hello";
		String s2 = "Hello";
		String s3 = new String("Hello");
		String s4 = "Hel" + "lo";
		String s5 = "Hel" + new String("lo");
		String s7 = "He";
		String s8 = "llo";
		String s9 = s7+s8;
		String s10 = new String("Hello");
		
		/*
		 * Try this :)
		 */
		 
		System.out.println(s1==s2);
		System.out.println(s1==s3);
		System.out.println(s1==s4);
		System.out.println(s1==s5);
		System.out.println(s1==s9);
		System.out.println(s3==s10);
	}
	
}

閱讀全文 »