創作內容

0 GP

簡易爬蟲

作者:Arjer│2019-10-23 02:29:24│巴幣:0│人氣:151
import urllib.request as ur                  #連網mod                                                               
url = ' 網址'         #目標網頁                                                                                               
request =ur.Request(url, headers={                                                                                  
    
"User-Agent":"----------"                                                                                                 
})        #建立Request物件,附加上Request Headers資訊(由網頁抓)                               
with ur.urlopen(request) as response:          #抓取網頁上data                                         
    data = response.read().decode('utf-8')                                                                         
#print(data)                                                                                                                       
import bs4                                    #解析原始碼mod                                                          
root = bs4.BeautifulSoup(data, "html.parser")    #讓BeautifulSoup解析HTML文件          
#print(root.title.string)                                                                                                        
titles = root.find_all("div",class_="title")     #找出符合類別定義('class_='的標籤('div')       
#print(titles)                                                                                                                       

for title in titles:                    #for迴圈找出網頁中所有符合的檔案(用find只會抓最新一個)
    if title.a !=None:                  #排除不存在的標籤後抓取data                                          
        print(title.a.string)                                                                                                      
引用網址:https://home.gamer.com.tw/TrackBack.php?sn=4568810
All rights reserved. 版權所有,保留一切權利

相關創作

留言共 0 篇留言

我要留言提醒:您尚未登入,請先登入再留言

喜歡★akyunt 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:連網操作、JSON處理... 後一篇:for循環、格式化輸出...

追蹤私訊切換新版閱覽

作品資料夾

lemonade1120大家
歡迎來逛逛看看我寫的奇幻小說喔~ :)看更多我要大聲說昨天22:23


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】