大數(shù)據(jù)學(xué)習(xí)心得 篇1
奧倫·艾奇奧倫(Oren Etzioni)創(chuàng)立的從文本中挖掘信息的公司ClearForest,已經(jīng)被路透社收購。
美國股市每天成交量高達70億股,而其中三分二的交易都是由建產(chǎn)在數(shù)學(xué)模型和算法之上的計算機程序自動完成的。
farecast經(jīng)過了20xx年立項,到20xx年被收購。經(jīng)歷了5年的時間,數(shù)據(jù)從最早了120xx條到20xx億條。
大數(shù)據(jù)的平臺有:谷歌的MAPREDUCE 和開源HADOOP平臺(最初源于雅虎)。NOSQL更優(yōu)先于MYSQL.
大數(shù)據(jù)所用的數(shù)據(jù)記錄單位:拍字節(jié)PB(2的50次方)和艾字節(jié)EB(2的60次方),澤字節(jié)ZB (2的70次方),太字節(jié)TB。1EB=10億GB。1ZB=1024EB
20xx年,所有數(shù)據(jù)中只有7%是存儲在報紙、書籍、圖片等媒價上的模擬數(shù)據(jù),其余全部是數(shù)字數(shù)據(jù)。
20xx年世界上存儲的數(shù)據(jù)預(yù)計能達到約1.2澤字節(jié),其中非數(shù)字數(shù)據(jù)只占不到2%。
人類存儲信息量的增長速度比世界經(jīng)濟的增長速度快4倍。而計算機數(shù)據(jù)處理能力的增長速度則比世界經(jīng)濟的增長速度快9倍。
大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時代,我們不必知道現(xiàn)象背后的原因。
大數(shù)據(jù)的算法從因果關(guān)系向相關(guān)關(guān)紗轉(zhuǎn)化。這也是思維方式的轉(zhuǎn)變。
推薦電影《點球成金》MONEYBALL
大數(shù)據(jù)的三個思維方式:
1、不要依靠分析少量的數(shù)據(jù)樣本,不要抽樣調(diào)查。要分析與某事物相關(guān)的所有數(shù)據(jù)。
2、不要追求精確性,要樂于接受紛繁復(fù)雜的數(shù)據(jù)。
3、不要探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。