前往
大廳
主題

【大學】2022SUMMER實習心得+2022FALL時間表

LOVe高橋李依 | 2022-09-02 13:13:44 | 巴幣 10 | 人氣 384

2022SUMMER實習心得+2022FALL時間表

很久沒認真打字了,希望不用太久能寫完這篇QQ

實習心得跟這個學期學的關聯性很大,乾脆放一起寫了,也能省些編輯排版的時間

先説實習内容,包括design template for newsletter and workflow,還有data research using python,就是典型的scrap → clean → visualize基本中的基本

感想就是學到很多,看到了更大的世界,也發現了自己的不足

當初被交托做什麽時在想爲什麽不教寫難點的,後來才發現,原來基本的東西都不熟練,那當然是先給你最基本的工作,然後我要做的就是盡量做到最好,elegant/simplify/more readable

有些東西還是要在工作中實戰過才能發現很多不足XD,畢竟在學校,如果我scrap不到某個data,我就做另外一個topic就好了XD,但在工作室不行的

實習是去從零開始學東西還是把學過的東西實戰應用?
應該不少人也在想這個,答案是,除非你天才,不然都是要有經驗(最好有做過項目)才去做那份實習

做個簡單的比喻:
你是裝修工人,在學校你單獨做了個厨房,睡房,主人房,客廳etc. 那代表你能起樓了嗎,怎麽可能,實習就是去建築,去起一棟樓,那當然不可能給你難的工作,不然會倒塌Xd

那python ML也是一樣的,所以這1.5個月就先把python最基本的package用好,嘗試更多的可能性/限制,優化,提速這樣。雖然跟專業的比較還是有距離,但至少,夠上班,而且真的進步很多,之前別人1小時的工作我説不定能卡一個星期,因爲對於手上的工具不熟悉

那天才爲什麽不用學會技能才申請實習,你去看看jane street就懂了,不用你會任何的東西,總之一上來就是面試,問你各方面大一大二的數學題,每個我都學過,但是組合起來,你怎麽拆解,就只有厲害的人才能做到,那麽那樣的人,招進去后培訓個半年,什麽都學會啦...(而且他們應該本來就會,可能就缺少一點domain knowledge,例如什麽是bonds,什麽是fixed income etc.)

給個鏈接,這是jane street的interview例子,題目看得懂,我也知道就是問些counting prob而已,但就是想不到怎麽去solve
(看25分鐘那個)
如果這些題目(不是全部,後面還有的...)都能有清晰的思路,那進去再學也不遲,反正學超快

總括來説就這麽多,還有一些額外的,不過是透過聊天的方式學到的,例如説,
-單是學會技術是不賺錢的,只能去公司打打工賺點生活費,賺錢的關鍵在於,如何把你手上有的技術做成一個現成的,供客人使用的軟件/平臺?

就像OCR(https://aws.amazon.com/tw/what-is/ocr/(什麼是 OCR (光學字元辨識)))

我的技術很强,如果你手寫一句「hello」在紙上,我能通過一些ML models去辨析,啊原來這是「hello」,就算世界上只有你會這個技術,也是沒用的,因爲客戶根本不懂,聼完後就只是「哦,很强,但關我鬼事」,你要用這個技術去尋找現實的問題,再用這個技術包裝成一個服務給客人用,那就能賺大錢。

用上面OCR的例子好了,政府每天有很多的手寫文件要輸入到電腦,以前是用人手看文件,然後打字上去的,那我們能不能設計一個軟件,只要你給我掃描文件pdf,我就能還你一個打字版的pdf,這不就解決問題了嗎,省了時間+人力。proofread/accuracy之類的就是後話了

總之就是想説,但有技術沒用,要找出現實存在的問題,然後用技術去包裝成服務再去解決,這樣才賺錢

還有一些common sense
我在plot圖,關於有參與IPO的銀行從業員的人數(我這裏說的是簡化版,方便理解),每年的變化,老闆說能找出insight就最好了,結果一些錯誤導致圖是這樣的
結果他一看就不對勁了,少了75%,那已經是WWIII的程度,不然不會跌成這樣的
這就是common sense,單有嚴謹程度是不夠的,還要有database,不然很多insight都會是錯/不準確的,對世界的認識也要慢慢培養起來

還有一個是「凡事想多點」
先説學習的,例如數學/程式
我學了一個定理,用點簡單的好了,應該大家都學過,pyth. thm.
一般人(包括我)都是會用就好,a^2+b^2=c^2,能解決大部分的問題,考試夠拿B,not bad對吧
但老闆就是這點不同(也是爲什麽他是老闆XDDD),他會去驗證,例如試幾個情況/數字,想什麽情況不能用(extreme case),原理etc.

現在回到實習時,還記得上面人數的圖嘛,最後plot成功了,大陸的IPO銀行從業員今年突然請多了好多,超過了global(headquarters總部不設在大陸/香港的公司),我當時就滿意了,直接跟他説了有這個發現,然後他就教我,如果他看到這張圖,他就會想,總數超越了,那麽是哪家銀行招多了人呢?是因爲經濟好?如果是經濟好的話那爲什麽global(最平的綫)沒有擴招?最後發現了,是因爲CICC擴招,其他根本沒怎麽招過,那已經比別人知道多一點了

就是每次想多一個,纍積起來就起飛了

還有不少的,不過那些都是個別例子,總之培養mindset的差不多就這些

所以真的學到很多,不管是思考的方法,做事的態度,還有知識的增加都是。

感謝老闆QQ,聽他說我是50個人裏面只請我一個做實習,明明我也不是最强那個啊....

關於老闆,有機會再說吧,很强的一個人,不是說那種起跑綫很高人生很順的,而是經歷過人生的起承轉合,還有創業家的必經之路,而且很謙虛

實習部分就寫道這裏,打字了一個小時,手有點累QQ,原來已經2400字了...不得不説從高2剛開始寫作到現在也進步了不少,感謝讓我遇到伽羅QQQQQQQQ,不然我就不會開始寫作了,也不會能成長這麽多,和找到這份工作了QQQQQQQQQQQQQQQQQQQQQQ

下面是這個學期的時間表

這學期6科,這次我真的學乖了,總之沒事別裝b,只選自己有興趣的科目,就是統計+AI,其他別碰....別人高分與否是看能力,我單純是看有沒有興趣...所以如果裝b選了寫沒興趣的科目就....直接擺爛,然後f..

MATH 2033 Mathematical Analysis
MATH 3423 Statistical Inference
MATH 4432 Statistical Machine Learning
MATH 5472 Computer Age Statistical Inference with Applications
COMP 2012 Object-Oriented Programming and Data Structures
COMP 3711 Design and Analysis of Algorithms
COMP 4471 Deep Learning in Computer Vision

MATH 2033 Mathematical Analysis

數學系的分析科,一共有兩科,分析入門(這科),還有實分析(3033)

内容就這些,直接抄過來好了XDD

Coverage of the course:
1. Sets, functions, countability, equivalence classes.
2. Construction of Q and R via equivalence relation.
3. Convergence in R and topology on R.
4. Infinite series.
5. Metric space.

Contents (Lecture Notes):
* 1  Sets and functions
    * 1.1  Sets
    * 1.2  Cartesian product
    * 1.3  Power set
    * 1.4  Functions
    * 1.5  Counting
    * 1.6  Equivalence relation
    * 1.7  Construction the rational numbers from integers
* 2  Real numbers
    * 2.1 Construction of real numbers from rational numbers
    * 2.2 Least upper bound property
    * 2.3 Convergence in R
    * 2.4 Topology on R
* 3  Infinite series
* 4  Metric space
    * 4.1 Definition
    * 4.2 Topology on metric spaces
    * 4.3 Convergence and completeness
    * 4.4 Space of functions
    * 4.5 Continuous functions
    * 4.6 Compactness
    * 4.7 The contraction mapping theorem
    * 4.8 Weierstrass Theorem

其中兩點最重要的,limit跟epsilon-delta

limit的部分,用sqrt(2)做例子好了

sqrt(2)是什麽?

按計算機就知道~=1.41421356......

但問題時,當時你根本不知道他有沒有無限的小數點后的數字啊
這就是limit要出場的時候了,但我還沒學到,所以等學期完了再説XD

然後就是epsilon-delta

高中就教過了,lim n→inf An = L
道理大家都懂,當n到超超超大,那麽這個sequence的第n個,就會=L
或是當An足夠接近L,n就是夠大

那什麽是「超超超大」?1k, 1kk, 1kkkkkkkk?
怎樣才算「足夠接近」?absolute difference < 某個數值?
這就要用到epsilon-delta了

基本上分析就是epsilon-delta,再上去也是,到了研究所才會有新的東西出現,所以如果epsilon-delta學的好,亂殺

總之就是把你高中~大一的微積分入門用嚴謹的方式教一次而已,考試也是考全證明

MATH 3423 Statistical Inference

這是統計系最重要的科了,跟上面的2033一樣,
上面是以前代公式出答案的微積分,用嚴謹的方式去教,
這裏是以前代公式出答案的prob and stat(例如normal, binomial distribution),用嚴謹的方式去教

先説教授吧,學生的評價很兩極,有些說很差,有些說很好,於是我就自己親身去上一課好了

上課互動不少,教授會不斷問你爲什麽這樣做,爲什麽這樣做就是公平etc,每個提問都是在推翻你的直覺,很多時候我們「覺得」這樣做就是公平的,但後來用了數學的方法證明后,發現原來不是,雖然内容不一樣,但類似這種感覺吧


總之聽了一課后,感覺還是不錯的,至少他真的有在定義東西。不過有個壞處就是,要預習XD,因爲他會用到很多沒聽過的詞匯,例如UMVAE什麽的,這些都要事先知道才能聽得懂,聽得懂才能跟得上他的課堂,不過應該還好,至少不會照著ppt...

至少願意教,不過可能經驗關係/能力關係導致上課體驗不太好,只能多去找他1v1了,抓住他單獨問問題的話通常都能得到解答

不過notes留空這點還是挺幹的,用了時間抄寫就沒有時間去聽他講下一句了,看看有沒有其他辦法,説實話對認真上課的人來説不太友善,雖然我明白他搞這些是爲了讓多點人去上課

1. Limit Theorems
2. Bootstrapping
3. Statistical Decision Theory
4. MLE and UMVUE
5. Hypothesis Testing
6. Bayesian Statistics


MATH 4432 Statistical Machine Learning

這些(連同notes)直接去他網頁就有了

Lecture 1. Overview of Statistical machine learning.
Lecture 2. Linear models.
Lecture 3. Classification.
Lecture 4. Resampling.
Lecture 5. Regularization.
Lecture 6. Algorithm.
Lecture 7. Tree-based methods.
Lecture 8. The expectation-maximization algorithm.
Lecture 9. *Support vector machine (depends on whether we have enough time).

看課題就知道,入門機器學習,上課學理論,作業用程式去做一些小專題+建模,考試證明,典型的math+cs課。

什麽是機器學習?

可以參考一下這個
介紹了最基本的ML algos

順帶一提,他説滿人,進不去本科的ML課的話,可以去他的博1課,

Lecture 1. James-Stein Estimator and Empirical Bayes.
Lecture 2. Linear mixed models.
Lecture 3. Explicit and inexplicit regularization in supervised learning.
Lecture 4.The Expectation-Maximization (EM) algorithm and its extension.
Lecture 5.Variational Inference.
Lecture 6. False discovery rate.
Lecture 7. Matrix factorization.
Lecture 8. Latent Dirichlet Allocation and PSD model.
Lecture 9. Variational inference in deep learning.
Lecture 10. Deep Generative models.

這三小,反正我是不敢讀的,要求你讀過上面那個,有統計知識,會數學分析+證明,要看論文,要寫論文,還要擅長寫程式

説起來我還在waitlist...希望能進去吧...不然可能要讀個次一等的ISOM3360 data mining 或是 IEDA3460 Demand and Supply Analytics那就很煩了,找工作會有些找不到


COMP 2012 Object-Oriented Programming and Data Structures

CS必修的,別以爲讀統計就不用,上面也説了,但有做ML models的技術是不夠的,還要學會怎麽包裝成一個服務給顧客使用,那包裝的過程就需要學會怎麽deploy model,可能還要自己寫software/backend,結果還是要學QQQQQQQQQQQQQQQQQQ

不過你看下面,他沒了isomorphism,不知道爲什麽

Class constructors, destructors, Order of construction/destruction
Operator Overloading
Abstract Data Type
Static member
Generic Programming
Inheritance (public, protected, private)
Polymorphism: Overriding, virtual, ABC
Data Structures:
Stacks and Queues (again)
BST
AVL trees
Hash tables


COMP 3711 Design and Analysis of Algorithms

跟上面一樣,跑不掉的,你接觸程式,你會遇到一個難題吧,例如一串數字,你怎麽拍成小到大,用時多少?用ram多少?最好、壞、平均情況?之類的

這顆就是叫你設計這些解法,還有分析不同的方法,他們的效率,那你就有能力知道該用哪一個了

這課應該會掙扎很久QQ,教授第一顆就説了,這是難的,你們要有心理准備在失敗中度過,至少剛開始是這樣,總之別想著來聽課然後很chill就高分,不可能的

不過這也好,分數綫路應該會散挺開,看運氣了


- Divide & Conquer
- Sorting algorithms
- Greedy algorithms
- Dynamic programming
- Graph algorithms

課程内容,是最經典的algo,不是現在AI吹很大的那些(那些天天變的,但這些不會),例如binary search, merge sort什麽的,一萬年后也是這樣做的

希望千歌佬可以來一起reg這棵...不然我可能要ggggggggggggggggggg

COMP 4471 Deep Learning in Computer Vision

stanford - cs231n 直接搬過來的,有興趣的話google就可以了

1. Image classification
2. Loss function and optimization
3. Introduction to neural networks
4. Convolutional neural networks (CNN)
5. Training neural networks
6. Deep learning hardware and software
7. CNN architectures
8. Recurrent neural networks (RNN)
9. Attention and Transformers
10. Detection and segmentation
11. Generative models
12. Visualizing and understanding
13. Video Models
14. Self-supervised Learning
15. Deep 3D Vision
16. Learning-based Sensing Technology
17. Invertibility in Image Processing and Restoration
18. Other Research Review...

這顆也是跑不掉,就算將來不做CV,他DL的概念對其他DL projects也很有用的,從上面就能看懂,教的很全面,CV這是因爲教授研究這個才會選來應用吧(你看有些教授研究NLP的就用DL ML做NLP了)

對於授課品質的評價不太好,看來也要自學然後去問他了QQQQQQQ
差不多就寫道這裏啦,12月尾再回來寫一下心得,希望有個好結果,不然要挂了

創作回應

更多創作