Beautiful Soup 簡介
Beautiful Soup, so rich and green,
Waiting in a hot tureen !
Who for such dainties would not stoop?
Soup of the evening, beautiful Soup!
Beautiful Soup 函式庫是以愛麗絲夢遊仙境中的一首詩命名
故事中此詩由 Mock Turtle 吟誦
(與維多利亞時代以牛而非龜作為材料的 Mock Turtle 雙關語)
如同夢遊仙境,Beautiful Soup 試著讓無厘頭有道理
它矯正不良 HTML 的一團亂以產生 XML 結構的 Python 物件
資料來源 : 《網站擷取 : 使用 Python (二版)》
可能很多人會好奇 Beautiful Soup 為什麼要這樣命名,這是一個解釋
我個人在使用 Beautiful Soup 的時候
我都是參考這篇中文教學 :
更詳細的內容就參考官方文件 :
大部分時候第一篇文章就可以解決了
重點在於自己要會看一點 HTML
只需要搞清楚什麼是節點 ? 什麼是 css 屬性 ?
然後善用瀏覽器的檢查工具、F12 開發人員選項,甚至直接觀察原始碼
只要有做到這些,基本上都能順利爬取
算是一篇重點整理,這篇就沒有範例程式碼了