爬蟲介紹 | AI in Finance: 金融與人工智慧成果分享平台

課程

課程
文字探勘
爬蟲介紹

簡介

資料預處理

jieba斷字

jieba TF-IDF

one-hot Encoding

文字雲

情緒分析

實際結果

爬蟲介紹

網頁架構

Request套件介紹

BeautifulSoup套件

範例

2020/05/01

文字探勘

爬蟲介紹

網路爬蟲，是可以「自動抓取網頁上的內容或資料」的程式，當我們進行實證研究或大數據分析時，一定要有資料才能進行分析，如果想研究的資料，沒有既定資料庫提供下載，而網頁上有資料，直接從網頁手動複製貼上，不方便又花費時間。這時可以透過撰寫爬蟲程式，來取得資料。
一般使用者在瀏覽網頁時，運作模式是對遠端的伺服器提出請求(Request)，伺服器就會收到資訊，做出回應(Response)回傳HTML等資訊，瀏覽器將這些資訊組成我們一般使用的網頁。
因此，撰寫爬蟲程式的流程如下:
1.決定目標網址，選擇想要抓取的網站，複製目標網站的網址(URL)
2.發送請求，本篇會利用Requst套件，獲取目標網頁的HTML文件，詳細部分請見第三節
3.解析網頁，本篇將利用BeautifulSoup套件解析第二步驟獲取的HTML文件，以得到我們想要的資訊，詳細部分請見第四節
4.存取資料，將得到的內容儲存下來
想透過爬蟲程式抓取網站上的資料，一定要了解網頁文件的結構，第二節將對網頁架構做進一步的說明。第五節，實際抓取自由時報網站的新聞內容作為範例。

網頁架構