獲「科技部人文社會科學研究中心」補助 AI in Finance: 金融與人工智慧成果分享平台

課程

2020/06/30
文字探勘
實際結果

本節將利用前面六節的自定義的文字探勘函式,將函式串聯來跑出實際結果。

說明重要的程式碼:
jieba.load_userdict('userdict.txt')

載入使用者自定義字典,檔案類型為txt檔案,檔案中一個詞佔一行,詞組/詞頻
jieba.set_dictionary('dict.txt')
載入繁體字字典,可以上網下載jieba的繁體字字典,原則上斷詞效果會比載入前還要好,大家可以自行試試看
stopwords = [line.strip() for line in open('stopword.txt', 'r', encoding='utf-8').readlines()]
這裡加載停用詞的路徑,如果有不想要分析的字詞,可以放入停用詞的txt檔案中
positive = [line.strip() for line in open("Positive.valid.txt", 'r', encoding='utf-8').readlines()]
放入正向詞情緒字典的路徑
negative= [line.strip() for line in open("Negative.valid.txt", 'r', encoding='utf-8').readlines()]
放入負向詞情緒字典的路徑
textmining('news.csv')
記得最後一行放入文字分析的檔案

文字分析完整程式碼(第二節~第八節完整程式碼)