創作內容

11 GP

selenium 爬蟲漫畫網站

作者:戠弈翔│2020-08-27 16:52:04│巴幣:22│人氣:734
有一天突然想看漫畫,但又不想在網站看;又想下載下來看的時候,
又有甚麼辦法可以完成這個問題?

突然我想到了爬蟲,所以我就很開心的打開 Pycharm 來開始寫爬蟲
先去判斷漫畫網頁是靜態還是動態網頁,使用一些方法。嗯! 是動態網頁

那麼先從圖片檔名下手,看看是否會夾在 JSON 裡面,看了一下。
嗯!  這個檔名的參數,好像是一個亂數公式來產生的。
看來只能用一些特殊的手段來取得我們所需的資料了。

後來就選擇使用 selenium 這個套件,來取得我們要的資料。

那讓我們來好好的想一想,該如何爬取所需的資料呢?

首先 使用 selenium ,模擬使用者瀏覽漫畫網頁
我們會發現網址最後的-{X},X 為漫畫頁數
發現這樣的規律就可以來瀏覽每一頁

這時再透過 BeautifulSoup 來解析,就能取得我們要的圖片網址

然後我們就可以,再去抓取這一話 or 一集漫畫的頁數

有漫畫圖片網址、頁數,這樣我們就可以寫一個迴圈來跑每一頁的頁數的網址
去解析每一頁的 圖片網址 就能透過下載的 function 下載下來了。

這個只是簡單的 selenium 小爬蟲,當然 selenium 還有更多更強大的功能可以使用。
遇到問題時,就可嘗試去多想多試,寫程式也是如此。



引用網址:https://home.gamer.com.tw/TrackBack.php?sn=4896438
All rights reserved. 版權所有,保留一切權利

相關創作

同標籤作品搜尋:python|爬蟲|selenium|comic|crawler|漫畫

留言共 3 篇留言

血麟
眼睛:嗯!我看懂了!
大腦:不,我不懂!
手:⋯⋯

08-28 13:30

戠弈翔
這個範例不難,您可以去嘗試寫寫看。
試過就會懂了。 哈08-30 11:04
Zebao
聽起來非常有趣~

08-28 22:59

戠弈翔
寫的時候會更有趣 哈哈08-30 10:53
Zebao
最近看網站教Line機器人就已經很有趣了,下個可能可以排學這個XD

08-30 14:25

戠弈翔
Line機器人 這個不錯喔!
話說我自己群組就有一隻,是我死黨寫的!
它的功能很不錯、很特殊(笑)08-30 14:42
我要留言提醒:您尚未登入,請先登入再留言

11喜歡★aqwe45621 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:學程式 要有目標的!!!... 後一篇:puppeteer 爬蟲...

追蹤私訊切換新版閱覽

作品資料夾

Waterfall10絕大部份巴友
魔幻小說《九芒記》第 164 章「面對疫情」發佈囉,歡迎瀏覽 ~看更多我要大聲說昨天23:19


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】