前往
大廳

主題

從零開始的python ep.7 網路爬蟲入門篇

黑子 | 2021-04-09 10:00:24 | 巴幣 14 | 人氣 316

本篇還不夠完整，之後會陸續增修

如果是單純讀檔(文件要在同個資料夾)，直接用下方例子

f=open("./檔名.副檔名",encoding="編碼方式") # f用來作為開啟檔案的代替

S1=f.read() #把f這個開啟的文檔讀出來，存成S1

f.close() #把 f 關掉

print(S1) #可以得到f的內容，當然也可以做其他處理，例如找文章中出現最多的字，搜尋特定內容等等

接著介紹從網頁爬取資料的前置作業

要先用cmd 下指令

pip install requests #這樣才能跟網頁請求，並在python開頭 import requests

pip install bs4 #裡面有beautiful soup，幫助我們過濾網頁中的tag

pip install html5lib

html5lib是解析器，就像是網頁瀏覽器，另外python也有內建的html.parser 但容易錯，另外兩個 lxml HTML跟lxml Xml解析快，但是不好裝(需要C語言庫)

才能用 requests模組來得到網頁內容

如果遇到編碼問題或是error可以用 (因為部分編碼在python shell不能顯示，但是還是可以存成txt檔)

try:

print(s)

except:

print('[error] error line')

就能把印不出來的排除掉

#從零開始學python #黑子 #從零開始的python

3

送禮物贊助創作者 !

0

創作回應

黑子 sunspotsday

追蹤創作集

作者相關創作

作品資料夾

從零開始的python ep.8 容器的函式

從零開始的python ep.7 網路爬蟲入門篇

從零開始的python ep.9 自訂函式(function)

從零開始的python ep.6 序對串列字典(還有集合)的處理

從零開始的python ep.5 (字串的方法)

從零開始的python ep.4 字串 (格式化)

從零開始的python ep.3 迴圈 (if for while)

從零開始的python ep.2 用內建運算符號做簡單計算

慣例生存報告補三月+四月預定行程

六月端午連假影片趕工咻咻咻一次四部影片之後還有兩三部要做...

2022年末台北馬拉松(12/18) 半馬21K 順利完賽

新的學期就從新學校開始

3/20 與 c0 (西陵珩) 的中餐聚 (公館隱家)

一回到家，黑子就吵著要玩世紀帝國

從零開始的python ep.10 函式的補充章節

動漫Youtuber 會遭遇的老問題+閒聊

無職轉生第一季上半 9~11 艾莉絲延長賽

21/5/5 動漫Youtuber 簡單評論與近況報告 (今年第一次更新)

[只有我不存在的城市] 舊番雜談

無職轉生第一季上半 5~8 艾莉絲的回合

外星文 Ñ ±â´ÉÀ¡Áø ÇÁ·Î±×·¡¹Ö ¾ð

尼斯湖水怪 x 外星人 x 雪怪

【冰鳩－企鵝餐酒館系列】第八彈!S彩S點的外星人花椰菜公爵

外星人:我他媽為和平而來｜梗圖分享

今天也是和平的日子(短漫)

相關創作

[年度回顧]2020動畫回顧 |五部私心最推薦|鳳梨索(閒置單位)

7

861

[年度回顧]2020私心推薦的新作動畫 Top30(下)

Celeste偽晴(躺平模式)

15

581

[年度回顧]2020私心推薦的新作動畫 Top30(上)

Celeste偽晴(躺平模式)

18

657

更多創作

黑子 sunspotsday

追蹤創作集

其他創作

作品資料夾