有一天突然想看漫畫,但又不想在網站看;又想下載下來看的時候,
又有甚麼辦法可以完成這個問題?
突然我想到了爬蟲,所以我就很開心的打開 Pycharm 來開始寫爬蟲
先去判斷漫畫網頁是靜態還是動態網頁,使用一些方法。嗯! 是動態網頁
那麼先從圖片檔名下手,看看是否會夾在 JSON 裡面,看了一下。
嗯! 這個檔名的參數,好像是一個亂數公式來產生的。
看來只能用一些特殊的手段來取得我們所需的資料了。
後來就選擇使用 selenium 這個套件,來取得我們要的資料。
那讓我們來好好的想一想,該如何爬取所需的資料呢?
首先 使用 selenium ,模擬使用者瀏覽漫畫網頁
我們會發現網址最後的-{X},X 為漫畫頁數
發現這樣的規律就可以來瀏覽每一頁
這時再透過 BeautifulSoup 來解析,就能取得我們要的圖片網址
然後我們就可以,再去抓取這一話 or 一集漫畫的頁數
有漫畫圖片網址、頁數,這樣我們就可以寫一個迴圈來跑每一頁的頁數的網址
去解析每一頁的 圖片網址 就能透過下載的 function 下載下來了。
這個只是簡單的 selenium 小爬蟲,當然 selenium 還有更多更強大的功能可以使用。
遇到問題時,就可嘗試去多想多試,寫程式也是如此。