主題

pandas爬html table，用了幾秒就完成了搞了兩星期的Beautiful soup QQ

LOVe高橋李依 | 2022-08-12 22:59:31 | 巴幣 20 | 人氣 356

我覺得很幹....最幹的那種...

之前實習要爬這個網頁

https://webb-site.com/dbpub/hksolfirms.asp

還有同網頁的其他頁面，都是table

要把table爬下來

然後當然就用beautiful soup這類static webpage的爬蟲軟件，把tags都爬下來，然後再多謝幾句code讓他們對齊format

搞了我兩個星期！！！！！

其他部分沒問題，就是因爲format那些對不齊，總之就很煩

那時候心態是ok的，畢竟對爬蟲&coding不熟練，beautiful soup 基本上沒用過，而且經過不斷的嘗試，把大部分常用的code跟方法都記住了，那也算是有不少收穫

老闆那邊也不用擔心什麽，畢竟前面做的快，就這個task慢一點也沒什麽問題

然後事件過去幾天后，也就是今天

我無意中看到了這個網頁...

知乎——天秀！Pandas還能用來寫爬蟲？！

抱著好奇的心情點了進去

他説是static webpage的table都可以用 pd.read_html(url) 去爬下來

那就試試吧

結果...

.............

.....

...

..

後來想想，其實也合理

既然excel都能scrap html tables了（只是基本上沒人用，能用的都會用code解決），那理論上python也會有這種功能才對...用bs前應該先上網查一下的QQQQ

#萱弟 #實習

6

留言

創作回應

(๑˘• ¸•)˘{鳴aiRN7⁆

[e29] 辛苦了。

2022-08-13 13:41:59

LOVe高橋李依

感謝qq

2022-08-13 13:43:02

神無月若葉

甚麼英文...我看不懂[e26]

2022-08-29 22:50:55

LOVe高橋李依

啊這個是程式爬蟲啦

2022-08-29 23:05:03

LOVe高橋李依 acgllkotori

追蹤創作集

作者相關創作

作品資料夾

【大學】2022SUMMER實習心得+2022FALL時間表

pandas爬html table，用了幾秒就完成了搞了兩星期的Beautiful soup QQ

高橋李依大久保瑠美田中美海*48

東山奈央*9

【日常】我爸認同我的老婆了！！！！！！！

高橋李依*86

【可愛/布偶】狗狗

【大學】2022-23 spring 時間表

日文1

大三上學期時間表——你有夢想嗎(ver2)

【煮】一次通關、椰汁(涼粉)(香蕉)西米露

【煮】兩次通關、番茄湯麵

【備份】RE: 亞洲盃徵中路隊友

大二下學期時間表

大二冬季時間表

【講解/進來給意見】simple linear regression原理+概念+流程（沒有任何數學

【半閑聊】關於聊天

高橋李依

2023 新年快樂

發國際短訊記得要加+++++++++++++++++

家中大小事問我就知道！

看更多

【情報】《旋風管家》聖誕賀圖

畑健二郎作品集（總之就是很可愛）

【情報】網龍自己出外掛? 至尊版手機管家介面流出?

金庸群俠傳 Online 武林至尊

【問題】這是專屬管家才有嗎？

三國志幻想大陸

【心得】善用管家職業，吸塵機技能可以吸金錢

pandas爬html table，用了幾秒就完成了搞了兩星期的Beautiful soup QQ

創作回應

作者相關創作

家中大小事問我就知道！

相關創作

更多創作