創作內容

4 GP

以 colab進行gensim 訓練中文詞向量

作者:速趴pe吉do│2019-12-18 20:44:09│巴幣:8│人氣:1068


請先確認環境
Runtime type:Python 3
Hardware accelerator:GPU

1.掛載 google drive
from google.colab import drive
drive.mount('/content/drive/')

2.將[中文詞向量訓練教學檔案]下載,將目錄指定至word2vec-tutorial
!git clone https://github.com/zake7749/word2vec-tutorial.git

import os
os.chdir('/content/drive/My Drive/colab/word2vec-tutorial')

3.前往維基百科:資料庫下載挑選更近期的資料並將其丟至word2vec-tutorial,不過請特別注意一點,我們要挑選的是以 pages-articles.xml.bz2 結尾的備份,而不是以 pages-articles-multistream.xml.bz2 結尾的備份,否則會在清理上出現一些異常,無法正常解析文章。

4.配置gensim
! pip3 install --upgrade gensim

5.初始化WikiCorpus後,能藉由get_texts()可迭代每一篇文章,它所回傳的是一個tokens list,我以空白符將這些 tokens 串接起來,統一輸出到同一份文字檔裡。這邊要注意一件事,get_texts()受wikicorpus.py中的變數ARTICLE_MIN_WORDS限制,只會回傳內容長度大於 50 的文章,詳細可見wikicorpus.py檔案,這邊我們只需輸入下列命令即可執行。
! python3 wiki_to_txt.py zhwiki-20190820-pages-articles.xml.bz2

6.安裝jieba並進行測試
!pip3 install jieba

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))


7.測試後發現有簡體中文,需加上一道繁簡轉換的手續。然而我們的語料集相當龐大,一般的繁簡轉換會有些力不從心,這邊我們採用OpenCC進行轉換
!sudo apt-get install opencc

!pip3 install opencc

import opencc

! sudo opencc -i wiki_texts.txt -o wiki_zh_tw.txt -c s2tw.json

8.轉換完後利用segment.py進行斷詞
! python segment.py wiki_zh_tw.txt

9.訓練詞向量
! python3 train.py

10.輸入demo.py並進行測試
! python3 demo.py

引用網址:https://home.gamer.com.tw/TrackBack.php?sn=4625319
All rights reserved. 版權所有,保留一切權利

相關創作

留言共 2 篇留言

雪月
幫推

12-19 14:16

馬盈
幫推

12-26 10:18

我要留言提醒:您尚未登入,請先登入再留言

4喜歡★chenjow 可決定是否刪除您的留言,請勿發表違反站規文字。

追蹤私訊切換新版閱覽

作品資料夾

zzz54872qw想要重來的你
【敬啟:無法重來的你。】第四章-第六節-被捕獲的影子。即將步入結局!歡迎來我的小說看看喔!看更多我要大聲說3小時前


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】