獲「科技部人文社會科學研究中心」補助 AI in Finance: 金融與人工智慧成果分享平台

課程

2020/07/30
文字探勘
jieba TF-IDF

TF-IDF演算法可以算出權重,得知字詞的重要性,萃取出文本中的關鍵字,詳細算法如下圖說明:

jieba.analyse.extract_tags(text, topK=n, withWeight=True)
jieba.analyse是基於TF-IDF演算法萃取關鍵字
text為要分析的文本
topK要萃取關鍵字的個數
withWeight設定是否要顯示權重

自定義函式為jiebaTFIDF,並依序將關鍵字存到keywordlist中。