評價文本生成模型生成效果詳情 - 評價文本生成模型生成效果,人工智能,數據結構與算法,詞向量,聚類,深度學習,人工智能 mob64ca1404baa2 博客

生活是美好的，佈滿每個角落，不要用良家婦女的心態去club，拜託！還是回家洗衣服去吧。

目的：評論自動分類

美護好評作為基礎數據，總共9萬6千條，數據越多訓練的模型越準確。

1. 首先對用户的評論進行標點符號去除，然後分詞，最後去掉停用詞。保存到一個文件中，一行是一條評論，每個詞之間用空格分開。

2. 使用word2vec訓練，得到詞向量，訓練的步驟：
1）sh train.sh <第1步的分詞結果文件> <模型輸出文件：詞向量文件>
2）這裏要注意，word2vec默認是生成二進制的模型，如果要生成文本的文件，就要把binary參數設置為0.
3）還有兩個參數，可以調整，進行測試的：a）window，表示窗口大小：默認就是5，一般不用調整。b）向量大小size，默認是200，一般不用調整。
3. 第2步生成的詞向量文件，得到每一個詞的向量表示，則可以對詞進行聚類。這裏有兩個好處：
1）詞向量包含語義信息
2）用向量來表示一個詞，就可以進行計算，比如consine相似度等等。
根據上面的分析，使用weka的kmeans聚類算法，可以到詞的聚類，具體是得到，每一個詞，屬於哪一個類別。比如"質量"->5這個類別，很可能5這個類別，都是講質量的。 @attribute '0' real real代表實數
4. 根據3裏面得到的，詞的聚類，我們可以對新的評論進行分類。比如下面的例子：
某一條評論，分詞之後的結果是：應該是正品吧感覺包裝什麼都很完整稍微試用了下感覺很滋潤保濕
判斷每一個詞的分類，可能的結果如下：
應該 1
正品 1
感覺 2
包裝 4
完整 4
稍微 2
試用 1
感覺 2
滋潤 2
保濕 2
後面的數字的含義是表示前面的詞所屬的類別。
在這裏，我們認為，如果一條評論裏面出現的某個類別的詞越多，那麼這條評論屬於這個類別的概率越大。統計各個類別的數量。
2 0.5
1 0.3
4 0.2
我們認為評論的類別，主要是第2類，同時，第1和第4也有一點。

如果有新的詞，就需要重新訓練word2vec詞向量。

本文章為轉載內容，我們尊重原作者對文章享有的著作權。如有內容錯誤或侵權問題，歡迎原作者聯繫我們進行內容更正或刪除文章。

mob64ca1404baa2 博客

mob64ca1404baa2 博客

博客 / 詳情

評價文本生成模型生成效果

發佈評論

Product

Company

Support

Company

博客 / 詳情

評價文本生成模型生成效果

發佈 評論

發佈評論