有一個深深值得相信的理論:見識決定命運。


一個重要提升見識的方法就是學習。那麼,究竟怎樣學習呢?其實是有方法的。


一本厚厚的書,最重要的其實就是那麼些概念,不算多。書的作者往往講一個概念就花費一個章節的篇幅,從內容和結構上來看,其實講的都差不多,無非是從不同的角度闡述這個概念,從而説清楚它是什麼,它不是什麼,以及它和別的概念什麼異同,或是相關聯的地方。


接下來就開始敍述與這個概念相關的方法論,以及使用這個概念的時候需要注意什麼問題,怎樣使用是正確的,怎樣使用是錯誤的,容易發生錯誤的地方是什麼,容易產生誤解的地方,等等。包括教科書中課後的各種習題,實際上都是為了這個目的。


有了這樣的認識之後,我們在學習的理念上就領先於他人了,這是最基本的能力,就像運動員的體能一樣。後面的學習過程只不過是進一步擴大這種認識而已。


所以大家應該知道,我們為什麼不厭其煩地強調基本概念的重要性。因為這就是我們通向知識財富道路上的一個有效的路徑,雖然不能稱之為捷徑,但絕對是一種非常有效的方法,每個人都應該掌握它。


不同的學科可能擁有不同的知識體系,但是都需要花費時間在基本的概念學習上。就像體能訓練,為的就是能夠保持自己的競技狀態。如果沒有這些基本的體能儲備,到了後面的學習估計就只能氣喘吁吁看着其他對手在場上奔跑,在學習中進步了。所以我們千萬不要因為短期的好高騖遠忽視了這個最基本的體能訓練。


大數據的學習同樣如此。每個人在學習過程中,大概首先要問到的一個概念就是:大數據中的“大”究竟指什麼?


如何理解 embedding size_思維方式


其實,是可以通過分析它的英文名稱來理解的。英語課裏常見的表示大的單詞有兩個:large和big,它們都是大的意思。那為什麼大數據使用“big data”而不是“large data”呢?而且,在大數據的概念被提出之前,有很多關於大量數據方面的研究,如果你去看,會發現這些研究領域裏面的很多文獻中,往往採用 large或者vast(海量)這樣的英文單詞,而不是big。例如,數據庫領域著名國際會議VLDB(即Very Large Data Bases),裏面就是用的large。 


如何理解 embedding size_思維方式_02


那麼,big,large和vast到底有些什麼差別呢?large和vast比較好説,程度上的差別,後者可以看成是very large的意思。而big和它們的區別在於,big更強調的是相對大小的大,是抽象意義上的大;而large和vast常常用於形容體量的大小。比如,large table常常表示的是一張尺寸非常大的桌子;而如果用big table,則表示這不是一張小的桌子,至於尺寸是否真的很大倒不一定,這種説法是要強調相對很大了,是一種抽象的説法。 


因此,如果你仔細推敲這種big data的説法,就會發現這種提法還是非常準確的,它傳遞出來最重要的信息就是大數據是一種抽象的大,是一種思維方式上的轉變。現在的數據量比過去大了很多,量變帶來質變,思維方式,方法論都應該和以往不同。這個可以看成是幫助我們理解大數據的一把鑰匙。


例如,大數據的一個常見定義是:Big Data is data that is too large, complex and dynamic for any conventional data tools to capture, store, manage and analyze. 可以較容易看出,這裏的“大”就是一個相對概念,相對於傳統數據工具無法捕獲、存儲、管理和分析的數據。


再例如,在有大數據之前,計算機並不能很好解決人工智能中的諸多問題,但如果我們換個思路,利用大數據,這樣在某些領域(例如圍棋)就可以突破性解決了,其核心問題變成了數據問題。


大數據中其它的幾個重要概念還包括:數據、信息、相關性、多維度、完備性、安全隱私等。我們後面一點點地來辨析。


概念這種東西是非常重要的!