0 GP
簡易爬蟲
作者:Arjer│2019-10-23 02:29:24│巴幣:0│人氣:151
import urllib.request as ur #連網mod
url = ' 網址' #目標網頁
request =ur.Request(url, headers={
"User-Agent":"----------"
}) #建立Request物件,附加上Request Headers資訊(由網頁抓)
with ur.urlopen(request) as response: #抓取網頁上data
data = response.read().decode('utf-8')
#print(data)
import bs4 #解析原始碼mod
root = bs4.BeautifulSoup(data, "html.parser") #讓BeautifulSoup解析HTML文件
#print(root.title.string)
titles = root.find_all("div",class_="title") #找出符合類別定義('class_='的標籤('div')
#print(titles)
for title in titles: #for迴圈找出網頁中所有符合的檔案(用find只會抓最新一個)
if title.a !=None: #排除不存在的標籤後抓取data
print(title.a.string)
引用網址:https://home.gamer.com.tw/TrackBack.php?sn=4568810
All rights reserved. 版權所有,保留一切權利