生活是美好的,佈滿每個角落,不要用良家婦女的心態去club,拜託!還是回家洗衣服去吧。

目的:評論自動分類

美護好評作為基礎數據,總共9萬6千條,數據越多訓練的模型越準確。

1. 首先對用户的評論進行標點符號去除,然後分詞,最後去掉停用詞。保存到一個文件中,一行是一條評論,每個詞之間用空格分開。

2. 使用word2vec訓練,得到詞向量,訓練的步驟:
1)sh train.sh <第1步的分詞結果文件> <模型輸出文件:詞向量文件>
2)這裏要注意,word2vec默認是生成二進制的模型,如果要生成文本的文件,就要把binary參數設置為0.
3)還有兩個參數,可以調整,進行測試的:a)window,表示窗口大小:默認就是5,一般不用調整。b)向量大小size,默認是200,一般不用調整。
3. 第2步生成的詞向量文件,得到每一個詞的向量表示,則可以對詞進行聚類。這裏有兩個好處:
1)詞向量包含語義信息
2)用向量來表示一個詞,就可以進行計算,比如consine相似度等等。
根據上面的分析,使用weka的kmeans聚類算法,可以到詞的聚類,具體是得到,每一個詞,屬於哪一個類別。比如"質量"->5這個類別,很可能5這個類別,都是講質量的。 @attribute '0' real real代表實數
4. 根據3裏面得到的,詞的聚類,我們可以對新的評論進行分類。比如下面的例子:
某一條評論,分詞之後的結果是:應該 是 正品 吧 感覺 包裝 什麼 都 很 完整 稍微 試用 了 下 感覺 很 滋潤 保濕
判斷每一個詞的分類,可能的結果如下:
應該 1
正品 1
感覺 2
包裝 4
完整 4
稍微 2
試用 1
感覺 2
滋潤 2
保濕 2
後面的數字的含義是表示前面的詞所屬的類別。
在這裏,我們認為,如果一條評論裏面出現的某個類別的詞越多,那麼這條評論屬於這個類別的概率越大。統計各個類別的數量。
2 0.5
1 0.3
4 0.2
我們認為評論的類別,主要是第2類,同時,第1和第4也有一點。

如果有新的詞,就需要重新訓練word2vec詞向量。