網路爬蟲,是可以「自動抓取網頁上的內容或資料」的程式,當我們進行實證研究或大數據分析時,一定要有資料才能進行分析,如果想研究的資料,沒有既定資料庫提供下載,而網頁上有資料,直接從網頁手動複製貼上,不方便又花費時間。這時可以透過撰寫爬蟲程式,來取得資料。
一般使用者在瀏覽網頁時,運作模式是對遠端的伺服器提出請求(Request),伺服器就會收到資訊,做出回應(Response)回傳HTML等資訊,瀏覽器將這些資訊組成我們一般使用的網頁。
因此,撰寫爬蟲程式的流程如下:
1.決定目標網址,選擇想要抓取的網站,複製目標網站的網址(URL)
2.發送請求,本篇會利用Requst套件,獲取目標網頁的HTML文件,詳細部分請見第三節
3.解析網頁,本篇將利用BeautifulSoup套件解析第二步驟獲取的HTML文件,以得到我們想要的資訊,詳細部分請見第四節
4.存取資料,將得到的內容儲存下來
想透過爬蟲程式抓取網站上的資料,一定要了解網頁文件的結構,第二節將對網頁架構做進一步的說明。第五節,實際抓取自由時報網站的新聞內容作為範例。