創作內容

11 GP

selenium 爬蟲漫畫網站

作者：戠弈翔│2020-08-27 16:52:04│巴幣：22│人氣：734

有一天突然想看漫畫，但又不想在網站看；又想下載下來看的時候，

又有甚麼辦法可以完成這個問題?

突然我想到了爬蟲，所以我就很開心的打開 Pycharm 來開始寫爬蟲

先去判斷漫畫網頁是靜態還是動態網頁，使用一些方法。嗯! 是動態網頁

那麼先從圖片檔名下手，看看是否會夾在 JSON 裡面，看了一下。

嗯! 這個檔名的參數，好像是一個亂數公式來產生的。

看來只能用一些特殊的手段來取得我們所需的資料了。

後來就選擇使用 selenium 這個套件，來取得我們要的資料。

那讓我們來好好的想一想，該如何爬取所需的資料呢?

首先使用 selenium ，模擬使用者瀏覽漫畫網頁

我們會發現網址最後的-{X}，X 為漫畫頁數

發現這樣的規律就可以來瀏覽每一頁

這時再透過 BeautifulSoup 來解析，就能取得我們要的圖片網址

然後我們就可以，再去抓取這一話 or 一集漫畫的頁數

有漫畫圖片網址、頁數，這樣我們就可以寫一個迴圈來跑每一頁的頁數的網址

去解析每一頁的圖片網址就能透過下載的 function 下載下來了。

這個只是簡單的 selenium 小爬蟲，當然 selenium 還有更多更強大的功能可以使用。

遇到問題時，就可嘗試去多想多試，寫程式也是如此。

github 完整程式碼

喜歡 11 收藏 3 引用留言推上首頁檢舉

引用網址：https://home.gamer.com.tw/TrackBack.php?sn=4896438
All rights reserved. 版權所有，保留一切權利

相關創作

puppeteer 爬蟲漫畫網站

[達人專欄] 30

[達人專欄] 加倍，加倍頡！四格日常 373.慷慨的頡哥

▋ 減胖神器 ▋

▋ 該減胖吶 ▋

留言共 3 篇留言

血麟：
眼睛：嗯！我看懂了！
大腦：不，我不懂！
手：⋯⋯

08-28 13:30

戠弈翔：
這個範例不難，您可以去嘗試寫寫看。
試過就會懂了。哈08-30 11:04

Zebao：
聽起來非常有趣~

08-28 22:59

戠弈翔：
寫的時候會更有趣哈哈08-30 10:53

Zebao：
最近看網站教Line機器人就已經很有趣了，下個可能可以排學這個XD

08-30 14:25

戠弈翔：
Line機器人這個不錯喔!
話說我自己群組就有一隻，是我死黨寫的!
它的功能很不錯、很特殊(笑)08-30 14:42

我要留言提醒：您尚未登入，請先登入再留言

11 喜歡★aqwe45621 可決定是否刪除您的留言，請勿發表違反站規文字。

前一篇：學程式要有目標的!!!... 後一篇：puppeteer 爬蟲...

追蹤私訊切換新版閱覽

作品資料夾

Waterfall10 給絕大部份巴友：
魔幻小說《九芒記》第 164 章「面對疫情」發佈囉，歡迎瀏覽 ~看更多我要大聲說昨天23:19