張紹宗 大數據時代讀書報告(3000字)
[標簽:標題] 這本書里主要介紹的是大數據在現代商業運作上的應用,以及它對現代商業運作的影響。 《大數據時代》這本書的結構框架遵從了學術性書籍的普遍方式。也既,從現象入手,繼而通過對現象的解剖提出對這一現象的解釋。然后在通過解釋在對未來進行預測,并對未來可能出現的問題提出自己看法與對策。 下面來重點介紹《大數據時代》這本書的主要內容。 《大數據時代》開篇就講了Google通過人們在搜索引擎上搜索關鍵字留下的數據提前成功的預測了20xx年美國的H1N1的爆發地與傳播方向以及可能的潛在患者的事情。Google的預測比政府提前將近一個月,相比之下政府只能夠在流感爆發一兩個周之后才可以弄到相關的數據。同時Google的預測與政府數據的相關性高達97%,這也就意味著Google預測數據的置信區間為3%,這個數字遠遠小于傳統統計學上的常規置信區間5%!而這個數字就是大數據時代預測結果的相對準確性與事件的可預測性的最好證明!通過這一事以及其他的案例,維克托提出了在大數據時代“樣本=總體”的思想。我們都知道當樣本無限趨近于總體的時候,通過計算得到的描述性數據將無限的趨近于事件本身的性質。而之前采取的“樣本<總體”的做法很大程度上無法做到更進一步的描述事物,因為之前的時代數據的獲取與存儲處理本身有很大的難度只導致人們采取抽樣的方式來測量事物。而互聯網終端與計算機的出現使數據的獲取、存儲與處理難度大大降低,因而相對準確性更高的“樣本=總體”的測算方式將成為大數據時代的主流,同時大數據時代本身也是建立在大批量數據的存儲與處理的基礎之上的。 接下來,維克多又通過了IBM追求高精確性的電腦翻譯計劃的失敗與Google只是將所有出現過的相應的文字語句掃描并儲存在詞庫中,所以無論需要翻譯什么,只要有聯系Google詞庫就會出現翻譯,雖然有的時候的翻譯很無厘頭,但是大多數時候還是正確的,所以Google的電腦翻譯的計劃的成功,表明大數據時代對準確性的追求并不是特別明顯,但是相反大數據時代是建立在大數據的基礎住上的,所以大數據時代追求的是全方位覆蓋的數字測度而不管其準確性到底有多高,因為大量的數據會湮埋少數有問題的數據所帶來的影響。同時大量的數據也會無限的逼近事物的原貌。 之后,維克托又預測了一個在大數據時代催生的重要職業——數據科學家,這是一群數學家、統計學與編程家的綜合體,這一群人將能夠從獲取的數據中得到任何他們想要的結果。換言之,只要數據充足我們的一切外在的與內在的我們不想讓他人知道的東西都見會在這一群家伙的面前展現得淋漓盡致。所以為了避免個人隱私在大數據時代被這一群人利用,維克托建議將這一群人分為兩部分,一部分使用數據為商業部門服務,而另一群人則負責審查這一些人是否合法的獲得與應用數據,是否侵犯了個人隱私。 無論如何,大數據時代將會到來,不管我們接受還是不接受! 而且這兩年,大數據這個詞突然變得很火,不僅出現在阿里巴巴、谷歌等互聯網公司的戰略規劃中,同時在我國國務院和其他國家的政府報告中多次提及,無疑成為當今互聯網世界中的新寵兒。我對大數據一直好奇已久,閱讀了很多資料仍不得其解,直到讀完《大數據時代》才有了粗略的認識。 我側重于從第一部分中的這三個觀點談談自己的看法,這三個觀點可以說是哲學上說的世界觀,這三個觀點可以說是哲學上說的世界觀,因為世界觀決定方法論,所以這三個觀點對傳統看法的顛覆,就會導致各種變革的發生。首先是第一個,作者認為在抽樣研究時期,由于研究條件的欠缺,只能以少量的數據獲取最大的信息,而在大數據時代,我們可以獲得海量的數據,抽樣自然就失去它的意義了。放棄了隨機分析法這種捷徑,采用所有的數據。作者用大數據與喬布斯的癌癥治療例子說明了使用全部數據而非樣本的意義,列舉了日本“相撲”等來證明使用全體數據的重要性。這個觀點足以這個觀點足以引起統計學乃至社會文明的變革,因為統計抽樣和幾何學定理、萬有引力一樣被看做文明得以建立牢固的基石。我對這個觀點還是比較認同的,如果真能收集到整體的數據而且分析數據的工具也足夠先進,自然是全體數據研究得出的結果更令人信服。但是這個觀點也過于絕對,就算是在大數據時代要想收集到全體數據還是不太可能實現的,因為收集全體數據要付出的代價有時會很大。比如說,你要檢測食品中致癌物質是否超標,你不可能每一件食品你都檢測一遍吧。 第二,要效率不要絕對的精確。作者說,執迷于精確性是信息缺乏時代和模擬時代的產物,只有5%的數據是結構化且能適用于傳統數據庫的。如果不接受混亂,剩下95%的非結構化數據都無法被利用。作者是基于數據不可能百分之百正確的考慮而做出這樣的判斷的,如果采用小數據一個數據的錯誤就會導致結果的誤差很大,但是如果數據足夠多、數據足夠雜那得出的結果就越靠近正確答案。大數據時代要求我們重新審視精確性的優劣,甚至還說到大數據不僅讓我們不再期待精確性,也讓我們無法實現精確性。谷歌翻譯的成功很好地證明了這一點,谷歌的翻譯系統不像Candide那樣精確地翻譯每一句話,它谷歌翻譯之所以優于IBM的 Candide系統并不是因為它擁有更好的算法機制,和微軟的班科和布里爾一樣,谷歌翻譯增加了各種各樣的數據,并且接受了有錯誤的數據。 第三個觀點,不是因果性,而是相關性,這是這本書中爭議最大的一個觀點,不僅是讀者,就算是本書的譯者也在序言中明確地說到他不認同“相關關系比因果關系更重要”的觀點。作者覺得相關關系對于預測一些事情已經足夠了,不用花大力氣去研究他們的因果關系。作者用林登的亞馬遜推薦系統的成功,證實了大數據在分析相關性方面的優勢以及在銷售中獲得的成功。沃爾瑪也是充分利用并挖掘各類數據信息的代表,從啤酒和尿布的案例,以及作者舉的有 關蛋撻和颶風天氣的案例,都說明了掌握了相關關系對于他們策略的幫助。一句話,知道是什么就夠了,不用知道為什么。很明顯作者所舉的例子都是屬于商業領域的,但是對于其他領域來說這個觀點就值得商榷了。比如說,在科學研究領域,你需要知其然也需要知道其所以然,找到事件發生的原理。用文中的一個例子說明,喬布斯測出整個基因圖譜來治療癌癥,但是你治療癌癥你必須知道癌癥發病的原理,知道哪一段基因導致了這種疾病,不可能只是說收集各種數據,然后利用其相關性來判斷哪里出現了問題 作者在書中把大數據說的很厲害,在最后一部分分析大數據帶來無數好處的同時帶來的不良影響以及如何面對這些影響。用麥克納馬拉的例子來說明對數據過度依賴所帶來的后果。也用《少數派的報告》這部電影來說明如果癡迷于數據會導致我們將生活在一個沒有獨立選擇和自由意志的社會,如果一切變為現實,我們將被禁錮在大數據的可能性之中。所以書中提出了幾種解決方法,一種是使用數據時征詢數據所有個人的知曉和授權。第二個技術途徑就是匿名化。毫無疑問,大數據將會給社會管理帶來巨大的變革。 大數據給人類社會的方方面面帶來了巨大的變革,這是社會發展的潮流,不可逆轉,我們只有順應這種潮流,在思想上和技能上做好準備才能成為時代的弄潮兒。對于一家公司或一個國家,要從根本上改變思維和觀念,盡早適應這種潮流。 最后,附上一段來自原著的結語: 大數據并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。 1 2 3 4 第二篇:數值讀書報告 2900字 數值分析讀書報告一 一、第一章數值分析與科學計算引論 1、數值分析也稱計算數學,是數學科學的一個分支,它研究用計算機求解各種數學問題的數值分析方法及理論與軟件實現,用計算機求解科學技術問題通常經歷以下步驟: ①根據實際問題建立數學模型, ②由數學模型給出數值計算方法, ③根據計算方法編制算法程序(數學軟件)在計算機上算出結果。 2、數值分析的特點有以下四點: 第一,面向計算機,要根據計算機的特點提供切實可行的有效算法。 第二,有可靠的理論分析,能任意逼近并達到精度要求,對近似算法要保證收斂性和數值穩定性,還要對誤差進行分析。 第三,要有好的計算復雜性,時間復雜性好是指節省計算時間,空間復雜性好是指節省儲存空間,這也是建立算法要研究的問題,它關系到算法能否在計算機上實現。 第四,要有數值試驗,即任何一個算法除了從理論上要滿足上述三點外,還要通過數值試驗證明是行之有效的。 3、誤差的分類: 主要有數學模型與實際問題之間出現的誤差叫模型誤差;觀測產生的觀測誤差;近似解與精確解之間的誤差稱為截斷誤差;以及計算過程中產生的舍入誤差。 4、近似值與精確值的差值就叫做絕對誤差,簡稱誤差 誤差與精確值的比值稱作絕對誤差 若近似值??的誤差限是某一位的半個單位,該位到??的第一位非零數字共有n位,就說有n位有效數字。 下邊有介紹了數值運算的誤差限用以下公式計算 ? ε(??)≈∑| ?=1??|?(??) ? 5、一個算法如果輸入數據有誤差,而在計算過程中舍入誤差不增長,則稱次算法是數值穩定的;否則稱此算法為不穩定的。 6、函數值的相對誤差與自變量的相對誤差的比值稱為計算函數值問題的條件數,一般情況下,條件數??≥10就認為是病態,??越大病態越嚴重。數值計算中通常不采用數值不穩定算法,在設計算法時還應盡量避免誤差危害,防止有效數字損失,通常要避免兩相近數相減和用絕對值很小的數做除數,還要注意運算次序和減少運算次數。 7、幾種具有代表性的算法 ①多項式求值的秦九韶算法 ②迭代法與開方求值 ③以直代曲與化整為零 ④加權平均的松弛技術 心得: 本章作為引論,只是對數值分析這門課程作了一個簡單的介紹,說明了數值分析的一些基本問題,主要講了數值分析的研究對象,誤差,算法穩定性,病態問題,和數值分析中最基本常用的幾個算法思想。這一章可以為我們以后學好數值分子這門課打好基礎,讓我們知道要學好這門課,需要掌握哪些相關的課程,比如高等數學、線性代數等。 二、第二章插值法 插值法,就是一種近似的運算方法,在我們平時的學習中,我們會遇到許多的解不出來的函數。例如,我們在做實驗時,我們往往是得到了一些離散的點,然后需要通過這些離散的點來畫出這個函數的圖形,那我們應該怎么畫出這個函數的圖形呢?這就是一個典型的問題,而插值法就為我們提供了這種方法。 我們通過用多項式來逼近這個函數,因為多項式函數簡單,而且其性質也很好。在多項式插值中,最簡單的就是把我們得到的離散的點代入多項式中,然后計算多形式的系數,這個方法的思路很簡單,但是運算的時候太過于繁雜,所以我們一般是不用的。這樣我們就得想一個好的方法,拉格朗日插值法就是一個。 拉格朗日插值法的表達形式是: n Ln(x)=∑yk(ωn+1(x)/(x?xk)ω′n+1(xk)) k=0 其中的xk,yk是我們已知的離散點,而ωn+1(x)=∏nk=0(x?xk) 拉格朗日插值是一個非常簡單的插值,它的表達形式一目了然,使得我們很好的理解。如果多項式的次數較低時,用這種方法是非常好的,但是當插值節點增減時,計算要全部重新進行,這就讓我們覺得它太繁瑣了,所以我們又提出了另外一種插值法,這就是牛頓插值法。在牛頓法中,我們引進了均差的概念。K階均差:f[x0,x1,?,xk]=(f[x0,?,xk?2,xk]?f[x0,x1,?,xk?1])/(xk?xk?1),所以牛頓插值的表達式是: Pn(x)=f(x0)+?+ f[x0,x1,?,xn](x?x0)?(x?xn?1), 這樣我們如果增減一些點時,就不需要再把原來已經運算過的東西再運算一遍了,這使我們的運算速度大大的提高了,讓我們的工作效率有了改善。牛頓插值有它的運算優勢,但是這種運算對于我們人來說,其還是很麻煩的,我們必須要求助于計算器或者電腦。 不管是拉格朗日插值,還是牛頓插值,它們只是滿足了在那些離散點處插值函數的函數值與原函數的函數值是相等的,但是其不能保證在這些點處它們的導數值相等,甚至是其高階導數值也相等。為了滿足這種要求,我們又提出了一種插值,它就是埃爾米特插值方法。由于考慮到實用性,我們只是介紹了兩個典型的艾爾米特插值,一個是已知了三個點的函數 值和某一個的導數值,求其三次艾爾米特插值時,我們利用的是牛頓插值方法來計算的。而另外一種情況是已知兩個函數值和其導數值,我們是用類似于拉格朗日插值的方法,運用基函數方法來運算的。 前面討論的插值函數雖然有的已經有了一致收斂性,但是其光滑性較差,對于像高速飛機的機翼形線,船體放樣等型值線往往要求有二階光滑度,既有二階連續導數。我們就提出了三次樣條插值。它就是在艾爾米特插值上的一種改進。 三、第三章函數逼近 在數值計算中經常要計算函數值,如計算機中計算基本初等函數及其他特殊函數;當函數只在有限點集上給定函數值,要在包含該點集的區間上用公式給出函數的簡單表達式,這些都涉及在區間[a,b]上用簡單函數逼近已知復雜函數的問題,這就是函數逼近問題。在這里我們討論的是,對函數類A中給定的函數f(x),記作f(x)∈A,要求在另一類簡單的便于計算的函數類B中求函數p(x)?B,使p(x)與f(x)的誤差在某種度量意義下最小。在這里面,我們主要討論了正交多形式逼近,其中我們介紹了兩個特殊的正交多項式,一個是勒讓德多項式,其表達形式是:Pn(x)=1 n2?n!?dn dxn(x2?1)n,n=1,2,?.而另一個是切比雪夫多項式,其表達形 式是:Tn(x)=cos(narccosx),|x|≤1.我們在用函數逼近時,用的就是這兩個函數。如果要求的是其最大誤差最小,那我們就用切比雪夫多項式來逼近,因為在同次的多項式中,切比雪夫多項式的最大值最小.但是如果要求的是使其誤差的二階范數最小,那么就要用勒讓德多項式來逼近了,因為其的二階范數是和0靠的最近的,在同次的多項式中。這主要是我們所用的最佳正交多項式的方法。 心得:本書在一些公式的推到過程中,簡化的步驟太多,致使讀者不能很好的看出,需要大量詳細步驟驗算,才能得出書中的計算過程,我認為這是本書的一個不足之處。二三章的內容對我們理工科的學生是有很大的實際意義的,我們在平時做實驗是就會用到這些方法,得出我們所需要的結果。 本書在一些例題講解上還算是比較詳細的,可能例題的數量上不是很多,畢竟每一張都會涉及到很多的公式,要想理解掌握這些公式只有通過大量的習題練習。