爬蟲程式主要目的為自動化「抓取網頁內容」,因此要了解網頁文件的組成,網頁文件由三大元素組成
(a)HTML:網頁的骨架及結構
(b)CSS:網頁配色及排版
(c)JavaScript:瀏覽器端與使用者互動的功能
撰寫基礎爬蟲程式須了解HTML網頁文件,HTML是階層式文件,由元素組成,元素包含標籤(Tag)及內容,屬性(Attribute)寫在起始標籤中,透過屬性設定元素樣式及功能。
由下圖是簡易HTML文件的標籤部分,可以看出有起始標籤就要有結束標籤,且結束標籤在標籤名稱前會有「/」。