国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

終于有人把數據、信息、算法、統計、概率和數據挖掘都講明白了!

開發 前端 算法
數據是什么?這幾乎成為一個我們熟視無睹的問題。有不少朋友腦子里可能會直接冒出一個詞“數字”——“數字就是數據”,我相信會有一些朋友會斬釘截鐵地這么告訴我。

[[282346]]

什么是數據

數據是什么?這幾乎成為一個我們熟視無睹的問題。

有不少朋友腦子里可能會直接冒出一個詞“數字”——“數字就是數據”,我相信會有一些朋友會斬釘截鐵地這么告訴我。

一些朋友會在稍作思考后回答“數字和字符、字母,這些都是數據”。

不知道你現在是不是正在糾結哪個回答更正確,亦或第二個回答更合理一些,我們先放一放。先看下面這組例子:

 

終于有人把數據、信息、算法、統計、概率和數據挖掘都講明白了!

 

這里有6個0,請問它是數據嗎?

我們再看這樣的例子:

 

終于有人把數據、信息、算法、統計、概率和數據挖掘都講明白了!

 

這里有4個1和2個a,那么它是數據嗎?

也許你可能會搖搖頭,“這到底是啥意思?”不錯,這也就是我們在認識數據的過程中存在的一個很要命的問題,幾乎在我們出發時就攔住了我們的去路。

我們回過頭再想想剛才的問題可能會得到比較令自己和他人信服的回答“承載了信息的東西”才是數據,換句話說,不管是石頭上刻的畫,或者小孩子在沙灘上歪歪扭扭寫出的字跡,或者是嬉皮士們在墻上的涂鴉,只要它表達一些確實的含義,那么這種符號就可以被認為是數據。而沒有承載信息的符號,就不是數據。這個觀點似乎看上去要比我們前面的回答理性得多,也科學得多,但是這個觀點真的不需要補充了嗎?

我們假設這兩個例子都有一些比較特殊的場景,假設第一組里出現的6個0其實是時分秒的簡寫,000000表示00點00分00秒,而如果寫作112349則表示11點23分49秒的含義,那么它是不是也是數據呢?假設第二組出現的5個1和2個a其實是一組密碼,5個1代表一個被約定的地點,aa代表一種被約定的事件,那這組數字字母的意義也有了相應的解讀,那么它是不是也是數據呢?

不難看出,一些符號如果想要被認定為數據,那就必須承載一定的信息。而信息很可能是因場景而定,因解讀者的認知而定,所以一些符號是不是可以被當做數據,有相當的因素是取決于解讀者的主觀視角的。不知道這個觀點你是不是認可,總之這點很重要。

什么是信息

說到這里,我的同事娟娟非常認真且煞有介事地跟我說:“我覺得數字、字母、圖像,這些都是數據,跟信息不信息的沒啥關系。”看著她認真地跟我抬杠,我覺得蠻好,至少在認識數據過程中積極思考只有好處。

 

終于有人把數據、信息、算法、統計、概率和數據挖掘都講明白了!

 

信息一詞,在沒有學術背景的情況下其實有著很多解釋,例如,廣播中的聲音、互聯網上的消息、通訊系統中傳輸和處理的語音對象、甚至是小區和校園的消息看板,也就是人類社會傳播的一切內容。1948年,數學家香農(Claude Elwood Shannon)在題為《通訊的數學理論》的論文中指出:“信息是用來消除隨機不定性的東西”。這句話如果要我們來舉個例子說明的話,大概可以想象這樣一個場景。

我說了兩句話:“我今年33歲。”“我明年34歲。”

那么第一句話如果是為了對不了解我的人介紹我的年齡的話而可以算作信息的話,第二句話則不是信息。至少你會覺得說了第一句以后,后面這句簡直就是廢話,因為這個從第一句話完全可以推導出來。

 

終于有人把數據、信息、算法、統計、概率和數據挖掘都講明白了!

 

再比如,某一天巴西足球隊和中國足球隊進行了比賽。

  • 結果第二天張三告訴我,“昨天巴西隊贏了。”
  • 而后李四告訴我,“昨天中國隊輸了。”
  • 再而后王五告訴我,“昨天的比賽不是平局。”

 

終于有人把數據、信息、算法、統計、概率和數據挖掘都講明白了!

 

前提是只要他們都是說實話的人,那么對于我來說,也就只有張三告訴我的能算信息,李四和王五說的則不能算做信息。甚至連張三說的“昨天巴西隊贏了”這句話是否能夠被算作信息,我們都要表示懷疑,因為這也有點“廢話”的意味——但凡對足球運動有點認識的人這幾乎可以認定,即便你不告訴我昨天巴西隊贏了,我也能猜個八九不離十,因為可能性實在是太大太大了,大到幾乎是一定的,幾乎是毋庸置疑的。國足的粉絲們請放下手中的臭雞蛋和爛西紅柿,聽我把例子講完。

現在信息是什么清晰多了吧?我們可以粗忽地認為,信息就是那些把我們不清楚的事情闡明的描述,而已經明確或者知曉的東西讓我們再“知曉”一遍,這些被知會的內容就不再是信息了。這個概念是很有用的,我們后面在講信息論的時候也會再做定量的說明,現在只做一個定性的了解。

數據和信息是我們在數據挖掘和機器學習領域天天要打交道的基礎,也是我們研究的主要對象。所以對數據和信息有個比較一致性的認識對后面咱們討論問題是非常有好處的。

什么是算法

算法這個名稱大家應該通常不陌生,如果你是一個信息相關專業的本科學生,至少在本科一年級或者二年級就接觸過不少算法了。隨便打開一個人力資源網站去搜搜看“算法工程師”,好的算法工程師的年薪也隨便就到三五十萬甚至上百萬的都有的。

算法是什么?算法可以被理解成為“計算的方法和技巧”,在計算機中的算法大多數指的就是一段或者幾段程序,告訴計算機用什么樣的邏輯和步驟來處理數據和計算,然后得到處理的結果。

科班出身的信息相關專業的朋友看到這里就會覺得比較親切了,經典的算法有很多,比如“冒泡排序”算法,這幾乎是所有以高級語言為依托的《數據結構》的入門必學;再比如“八皇后問題”算法,這幾乎也是我們在講窮舉計算時的經典保留算法案例(就是在國際象棋棋盤上放八個能夠橫豎斜無限制前進的皇后,讓它們之間互相還不能攻擊,看有多少種解);還有不少我們聽說過的算法,比如MD5算法,ZIP2壓縮算法等各種不勝枚舉的算法。下圖就是八皇后問題的一組解,我們經過窮舉是可以求出所有92組解的。

 

[[282351]]

 

應該說算法是數據加工的靈魂。如果說數據和信息是原始的食材,數據分析的結論是菜肴,那么算法就是烹調過程;如果說數據是玉璞,數據中蘊含的知識是價值連城的美碧,那么算法就是玉石打磨和加工的機床和工藝流程。

算法在高級語言發展了很多年之后,更多的被封裝成了獨立的函數或者獨立的類,開放接口供人調用,然而算法封裝地再好卻是不能用純粹不假思索地使用就能獲益的東西,要知道,這些封裝只是在一定程度上避免了我們重復發明輪子而已。

大家不要以為算法全都是算法工程師的事情,跟普通的程序員或者分析人員無關,算法說到底是對處理邏輯理解的問題。

《孫子兵法·作戰篇》有云,“不盡知用兵之害者,則不能盡知用兵之利”,意思是說,不對用兵打仗的壞處與弊端進行充分了解的話同樣不可能對用兵打仗的好處有足夠的認識。算法的應用是一個辯證的過程,不僅在于不同算法間的比較和搭配使用有著辯證關系,在同一個算法中,不同的參數和閾值設置同樣會帶來大相徑庭的結果,甚至影響數據解讀的科學性。這一點請大家務必有所注意。

統計、概率和數據挖掘

統計、概率、數據挖掘,這幾個詞經常伴隨出現,尤其是統計和概率兩個概念,幾乎就像自然界的伴生礦一樣分不了家,有很多出版社都出版過叫做《概率統計》的書籍。

我們這本書本身也不準備從學術的角度給統計和概率做嚴格的區分,在平時工作中我們用的統計大多為計數功能,例如我們在使用EXCEL中也會用到COUNT、SUM、AVERAGE等這些統計函數;如果是在軟件開發的朋友在用SQL語言對數據庫的某些字段進行計數(count)、求和(sum)、求平均(avg)等函數。而概率的應用大多則是根據樣本的數量以及占比得到“可能性”和“分布比例”等描述數值。當然,概率的用法遠其實不止這些,在數據挖掘中同樣用到大量概率相關的算法。

數據挖掘這個詞很多時候是和機器學習一起出現,現在網上眾人對這兩個詞的關系說法也是莫衷一是。有的說數據挖掘包含機器學習,有的說機器學習是數據挖掘發展的更高階段云云。在我看來,數據挖掘和機器學習這樣的詞匯命名應該是信息科學自然進化和衍生出來的,帶有一定的約定俗成的色彩,人們的看法見仁見智也在情理之中。

我的觀點是這樣。

首先我認為沒有必要一定要給兩個詞匯劃一個界限,或者一定要把他們做嚴格的概念區分,因為區分的標準到目前本就沒有科學而無爭議的界定,況且是不是能分清一個算法屬于數據挖掘的范疇還是機器學習的范疇對于算法本身使用是沒有任何影響的。這兩個詞大家如果想聽解釋的話,不妨只從字面意思去理解就已經足夠了。

數據挖掘——首先是有一定量的數據作為研究對象,挖掘——顧名思義,說明有一些東西并不是放在表面上一眼就能看明白,要進行深度的研究、對比、甄別等工作,最終從中找到規律或知識,“挖掘”這個詞用的很形象。

機器學習——我們先想想人類學習的目的是什么?是掌握知識,掌握能力,掌握技巧,最終能夠進行比較復雜或者高要求的工作。那么類比一下機器,我們讓機器學習,不管學習什么,最終目的都是讓它獨立或至少半獨立地進行相對復雜或者高要求的工作。我們在這里提到的機器學習更多是讓機器幫助人類做一些大規模的數據識別、分揀、規律總結等人類做起來比較花時間的事情。但是請注意,與數據挖掘一起出現的這個機器學習概念和我們說的“人工智能”還是相差甚遠,因為這里面對“智能”的考究程度實在是太低了。

什么是商業智能

另一個和大數據一起經常出現的詞匯是商業智能,也就是我們平時簡稱的BI(Business Intelligence)。

 

[[282352]]

 

商業智能——業界比較公認的說法是在1996年最早由加特納集團(Gartner Group)提出的一個商業概念,通過應用基于事實的支持系統來輔助商業決策的制定。商業智能技術提供使企業迅速分析數據的技術和方法,包括收集、管理和分析數據,將這些數據轉化為有用的信息。如果這個書本式的概念讀起來還是比較費解,那么就聽一個形象的比喻。

公司在日常運營過程中是需要做很多決策的,無時無刻都存在于公司的各個方面,而決策最終不管是股東大會討論也好還是企業領導部門領導直接發布行政命令也好,最終可能是由于很多因素共同影響做出的結果,無論其來自主觀還是客觀。

這些決策可以如何得出呢?可以領導直接憑經驗決定;可以群策群力開會決定;可以問訊很多行業專家;甚至可以找個算卦先生來占卜……從概念來說都是屬于輔助決策。而顯然,我們都期望不論最終是如何做出的這些決策和命令,它們都應該是更為理性、科學、正確的。但是如何幫助他們做出更為理性、科學、正確的決策呢?商業智能整體也就是研究這樣一個課題,到目前為止,業界普遍比較認可的方式就是基于大量的數據所做的規律性分析。因而,市面上成熟的商業智能軟件大多都是基于數據倉庫做數據建模和分析,以及數據挖掘和報表的。

可以說,商業智能是一個具體的大的應用領域,也是數據挖掘和機器學習應用的一個天然親密的場景。而且商業智能這個解決問題的理念其實不僅僅可以應用于商業,還可以應用于國防軍事、交通優化、環境治理、輿情分析、氣象預測等等。

責任編輯:武曉燕 來源: 今日頭條
相關推薦

2020-06-03 15:39:38

數據算法統計

2022-01-05 18:27:44

數據挖掘工具

2022-04-18 07:37:30

數據信息知識

2021-12-03 18:25:56

數據指標本質

2022-04-27 18:25:02

數據采集維度

2021-06-29 11:21:41

數據安全網絡安全黑客

2022-04-22 11:26:55

數據管理架構

2020-11-30 08:34:44

大數據數據分析技術

2022-04-12 18:29:41

元數據系統架構

2020-11-19 10:03:37

前臺中臺后臺

2021-12-07 18:24:26

數據安全

2025-05-29 01:00:00

數據架構大數據數據湖

2022-05-01 22:09:27

數據模型大數據

2020-10-29 06:09:37

數據中臺數據大數據

2022-05-09 20:23:51

數據采集

2025-07-30 04:44:00

數據跨境流動

2021-06-13 12:03:46

SaaS軟件即服務

2022-03-27 20:32:28

Knative容器事件模型

2021-10-09 00:02:04

DevOps敏捷開發

2020-12-21 15:45:53

業務中臺數據中臺技術中
點贊
收藏

51CTO技術棧公眾號

亚洲福利在线播放| 不卡一卡2卡3卡4卡精品在| 9191在线播放| 成人免费小视频| 中国成人亚色综合网站| 欧美网站在线| 91精品国产综合久久男男| 国产精品xxx在线观看| 精品国产欧美一区二区三区成人 | 久久国产日韩| 99在线高清视频在线播放| 精品无人区麻豆乱码久久久| 国产91成人在在线播放| 在线视频亚洲欧美中文| 欧美国产日韩在线| 国产精品xxx在线观看| 午夜精品一区二区三区av| 成人台湾亚洲精品一区二区 | 91精品国产66| 在线日韩欧美视频| 欧美videos粗暴| xvideos国产精品| 日韩三区免费| 中文在线不卡视频| 成人一区视频| 欧美老肥婆性猛交视频| 国产精品巨作av| 欧美一级在线亚洲天堂| 国内亚洲精品| 亚洲综合在线小说| 久久成人亚洲| 强伦女教师2:伦理在线观看| 国产经典欧美精品| 91九色在线观看视频| 欧美国产激情一区二区三区蜜月| sihu成人| 欧美色图第一页| av手机在线观看| 久久视频免费在线播放| 99久久婷婷国产综合精品青牛牛 | 亚洲午夜国产一区99re久久| 麻豆免费网站| 日本久久一区二区三区| av免费在线观| 色噜噜久久综合伊人一本| 大香伊人久久精品一区二区| 国产精品综合不卡av| 激情婷婷欧美| 青青草国产精品视频| 亚洲激情图片qvod| 免费a级人成a大片在线观看| 亚洲午夜未删减在线观看 | 99综合在线| 欧美与动交zoz0z| 中文字幕亚洲视频| 亚洲视频tv| 久久午夜a级毛片| 久久影院100000精品| 亚洲国内在线| 中文字幕一区二区在线播放| 69视频在线观看| www国产精品com| 婷婷另类小说| 黄色一级片在线看| 欧美性猛交xxxx久久久| 日韩欧美精品电影| 国产有码一区二区| 国产精品主播直播| 在线播放av更多| 国产视频在线观看一区二区| 国产日韩视频在线| 女同性恋一区二区| 好吊成人免视频| 欧美日韩五码| 亚洲最大福利视频| av不卡在线观看| 国产裸舞福利在线视频合集| 尤物99国产成人精品视频| 无需播放器亚洲| 91传媒久久久| 日韩一级免费观看| 国产一区二区三区四区| 日本免费成人网| 欧美体内she精视频| 天堂精品在线视频| 欧美亚洲精品日韩| 亚洲成精国产精品女| 亚洲国产天堂| 亚洲精品国产精品国自产| 亚洲一区在线观看视频| 91福利精品在线观看| 蜜桃成人在线| 精品久久中文字幕久久av| 丁香婷婷久久| 神马影院我不卡午夜| 亚洲va欧美va人人爽午夜| 久久综合偷偷噜噜噜色| 伊甸园精品99久久久久久| 欧美午夜女人视频在线| 国产精品久久久久久久久久白浆| 男人j进女人j| 日韩欧美国产一区在线观看| 欧美在线黄色| 桥本有菜亚洲精品av在线| 高清在线视频日韩欧美| 不卡的av中国片| 国产高潮在线| 日韩精品久久久免费观看| 欧美视频三区在线播放| 91综合视频| 超碰在线公开免费| 日本成熟性欧美| 日本一区二区成人| 色妞ww精品视频7777| 黄色免费观看视频网站| 亚洲美女在线看| 国产一区三区三区| 亚洲色图官网| 成人av在线播放观看| 亚洲欧美999| 久久国产精品免费| 国产偷倩在线播放| 欧美一级二级三级九九九| 欧美色成人综合| 亚洲福利国产| 免费网站黄在线观看| 麻豆av一区二区| 欧美日韩国产免费| 国产精品五区| 超碰在线资源| 手机成人av在线| 日韩久久免费电影| 国产一区二区三区日韩| 欧美黄色三级| 国产wwwxx| 日本精品视频在线观看| 一区二区三区中文字幕精品精品| 欧美日中文字幕| 精品欧美不卡一区二区在线观看| 国产另类自拍| 欧美不卡在线视频| 精品一区二区日韩| 日本国产一区| av天天av| 97久草视频| 日韩免费视频线观看| 国产一区二区成人久久免费影院| 久久91导航| 最近中文字幕2019第二页视频| 国产精品视频免费在线| 欧美性xxxxxx少妇| 奇米色一区二区三区四区| 播放一区二区| 成人免费淫片在线费观看| 91精品免费看| 91精品国产综合久久香蕉的特点| 久久国产精品无码网站| 久久精品xxxxx| 一个人看的免费网站www视频| 懂色一区二区三区av片| 亚洲高清一二三区| 国产亚洲精品bt天堂精选| 91嫩草亚洲精品| heyzo一区| www.99色| 欧美久久综合性欧美| www.日韩欧美| 亚洲成av人片一区二区梦乃| 国产精品美女| 秋霞一区二区三区| 你懂的在线网址| 久久99久久久久久| 国产精品免费网站| 亚洲国产精品小视频| 国产精品免费丝袜| 日韩午夜免费| 日本在线一区二区三区| 久草福利在线视频| 国产人妻777人伦精品hd| 国产精品视频地址| 亚洲人成电影在线观看天堂色| 亚洲另类春色国产| 日本一不卡视频| 久久99视频| 性感美女一区二区在线观看| 天堂在线视频中文网| 吴梦梦av在线| 国产精品自拍视频| 亚洲男人第一av网站| 一区二区三区精品久久久| 蜜臀a∨国产成人精品| 啪啪国产精品| 亚洲女同志freevdieo| 在线观看黄色小视频| 免费观看国产精品视频| 亚洲最大激情中文字幕| 久久精品视频播放| 日韩欧美一区二区三区在线| 亚洲欧洲精品成人久久奇米网| 免费人成在线不卡|