国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

數(shù)據(jù)科學項目管理中的“黃金標準”

大數(shù)據(jù) 數(shù)據(jù)分析
我想大多數(shù)人至少承認這一點:“你的研究需要讓其他人能夠輕松地理解你在項目中做了什么,并能復制這些結(jié)果”。此外,你還得對文件的命名方式多加注意,具體做法如何,我們一起來看看吧。

[[247737]]

大數(shù)據(jù)文摘出品

編譯:茶西、陳同學、Aileen

如何建立一個數(shù)據(jù)科學項目管理?建立的標準又是什么?

我想大多數(shù)人至少承認這一點:“你的研究需要讓其他人能夠輕松地理解你在項目中做了什么,并能復制這些結(jié)果”。

此外,你還得對文件的命名方式多加注意,具體做法如何,我們一起來看看吧。

研究結(jié)果的可復制性和分享性

[[247738]]

首先,你所做的項目必須具有非常強的可復制性以及可分享性,因為只有這樣才能讓你的同行檢驗項目的成果。

例如,杜克大學的研究人員曾經(jīng)發(fā)表了一項關(guān)于將個人基因信息用于患者化療的研究。來自MD Anderson癌癥研究中心的兩位研究人員Baggary和Coombs想要對研究進行復現(xiàn)。但是復現(xiàn)之前必須獲取數(shù)據(jù)和代碼是必須的。

經(jīng)過數(shù)月的時間,終于,這兩位認真的研究人員拿到了想要的數(shù)據(jù)和代碼。雖然,拿到的時候這些資料還是未經(jīng)整理、雜亂無章的。

又經(jīng)過很長時間的實驗驗證,這兩位研究人員發(fā)現(xiàn)已發(fā)表的研究中的代碼出現(xiàn)了一個錯誤,這個錯誤嚴重到研究的成果會將患者置于危險境地。

所以,幾個月份來,兩位研究者一直在對一項錯誤的研究進行復現(xiàn),更重要的是,他們大多數(shù)的時間花費到了“無意義”的數(shù)據(jù)收集與整理上。

這就是弱分享性以及弱復制性帶來的危害,驗證實驗結(jié)果可能花費不了多少成本。但是由于研究作者對數(shù)據(jù)的保護,使得你需要用更長的時間收集相關(guān)數(shù)據(jù)。

那么,為什么研究者大多不愿意分享研究數(shù)據(jù)呢?

當你聯(lián)系一個研究員想要獲得他的研究的源代碼和初始數(shù)據(jù)時,你需要解釋你是誰,你為誰工作,為什么需要這些數(shù)據(jù),以及你要如何處置這些數(shù)據(jù)。

另外,你還經(jīng)常收到如下回復:

  • 我不得不說如果沒有解釋的話,這就是一個不太正常的要求。請讓你的導師發(fā)一封詳細的,我再強調(diào)一遍,詳細的郵件給我來解釋一下。
  • 這些數(shù)據(jù)文件是我們的資產(chǎn),并且不是免費使用的,所以請告訴我們你想要用這些文件來做什么,然后我們看看可以如何幫到你。
  • 我們通常不會將我們的內(nèi)部數(shù)據(jù)分享給非合作單位。
  • 這些代碼是我和同事多年努力的結(jié)晶,這些數(shù)據(jù)也是我與合作者們千辛萬苦花了很長時間收集到的,所以也需要得到他們的允可。
  • 通常我們不會提供這類數(shù)據(jù)給不認識的人。可能你想要查驗數(shù)據(jù)分析,這可能對于我們也有用,但是在你發(fā)表你的研究時請恰當?shù)靥岬轿覀儭?
  • 感謝你對我們的文章感興趣。在計算中我用的是我們自己的代碼,目前還沒有公共版本可供下載。鑒于目前的代碼不是很易用,而且還在持續(xù)改進中,所以我傾向于暫不分享。
  • 很抱歉我們的代碼在創(chuàng)建時并沒有想過給他人使用。代碼現(xiàn)在并未文檔化,我們也沒有時間和資源來文檔化。如果你有一個特別的計算要做,且不是我們現(xiàn)在做的東西的主要延伸的話,我們可以幫你跑這個代碼。
  • R是一個免費的軟件,你可以在www.r-project.org/找到。我用R是因為XX模型。你可能有所了解XX和XX十分復雜。但是我可能不必說這些你已經(jīng)是個統(tǒng)計學學生了。我都是用Matlab來處理幾何的問題。

所以,建議你在閱讀研究成果時,先看是否有一份附有所有的原始數(shù)據(jù)和代碼的可重復性聲明。如果沒有看到一份這樣的東西,你可以暫時忽略這個研究。

可重復使用說明范例

不能讓你的項目具有可復制性是學術(shù)上的不端行為,可能會產(chǎn)生嚴重的后果。例如“未能妥善記錄和保存研究成果”是近日康奈爾大學研究員Brian Wansink的受到的不光彩的指控之一 。

在Daniele Procida關(guān)于軟件文檔的黃金標準上,他很好地總結(jié)了這一點:

“不管你的軟件有多好,如果說明文檔不夠好,人們就不會使用它。即使出于某種原因,人們沒有選擇而不得不使用它,沒有好的說明文檔的話,大家也不能有效地使用它,更不會按照你希望的方式使用它。”

因此,遵循Procida先生的明智建議,你的研究需要讓其他人能夠輕松地理解你在項目中做了什么,并能復制這些結(jié)果。這對于現(xiàn)在和同事的合作至關(guān)重要,也對后人有很大幫助(例如,未來某一天你要重新運行一個六個月沒碰過的分析的時候,或者任何其他研究員想要重新看一看你的工作的時候)。Leek認為 “花費數(shù)據(jù)科學項目中10-20%的時間來對你的工作進行組織與文檔化”是非常重要的。

文件命名

文件的命名的方式在數(shù)據(jù)科學項目中也是非常重要的。

一位對R語言腳本設(shè)計、工作流程和文件組織與命名方面頗有見地的數(shù)據(jù)科學家Jenny Bryan認為有三個原則是必須遵守的:

  • 機器可讀
  • 人類可讀
  • 很好地處理默認排序

為了機器的可讀性,我們希望避免空格、標點符號、句號和任何其他特殊字符(除了“_”和“-”)。

針對人類的可讀性,需要您給文件賦予有意義的名稱。當命名R對象時,如果包含了注釋的話,縮寫對象名稱的也是可以的。例如,cv_perf_Recoke_rf是對隨機森林模型的每個交叉驗證的驗證召回的計算。

但是在命名文件時,我建議除非絕對必要,不要使用縮寫詞;如果使用了的話,請在自述文件中列明這些信息。

另外一個建議是將日期和數(shù)字放在文件名的開頭。始終使用ISO 8601的日期格式(yyyy-mm-dd)和左起帶0的數(shù)字。數(shù)字的最大位數(shù)取決于一共要生成多少個文件。假設(shè)你想要保存100個建筑MRI圖像文件,那么它應(yīng)該看起來如此001_t1_mri.nii.gz。假設(shè)你認為你實際上會生成1000個文件,它看起來應(yīng)該如此0025_t1_mri.nii.gz。

Leek還指出,應(yīng)該避免大小寫的敏感性,例如Esophageal-Cancer_Report.md(食道癌報告.md)顯然是一個可怕的文件名(輸入這串包含大小寫的字母和字符真是累死了)。

你也可以用esophagealCancer_report.md,因為它更能看起來更令人愉快,也并未有Leek提到的風險;只要不要忘記在linux中使用find指令時用-iname標志來忽略大小寫就好。如果你健忘,或者只是效率很高(也就是懶),你總是可以把它包含在.bashrc文件中作為別名。

讓文件名以大寫字母開頭顯然是個壞主意,因為它會導致你需要額外的按鍵來生成大寫字母(例如Shift)。然而,使用camelCase方式,您可以通過使用選項卡來自動完成以避免額外的按鍵。

OMT

如果你使用R,你應(yīng)該讀一讀Jenny Bryan的here()包,它消除了setwd()可能導致的麻煩的工作流程問題。

另外,建議大家去閱讀她的博客文章“面向項目的工作流程”它清楚明白的告訴我們更多關(guān)于“怎樣做”以及“為什么這樣做”的信息。

面向項目的工作流程:https://www.tidyverse.org/articles/2017/12/workflow-vs-script/

遵循這個數(shù)據(jù)科學項目管理黃金標準的建議,在處理“大數(shù)據(jù)”時你將得心應(yīng)手許多。

相關(guān)報道:

https://www.r-bloggers.com/the-gold-standard-of-data-science-project-management/amp/

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)文章,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2018-07-31 15:47:11

2020-07-27 08:00:01

機器學習技術(shù)人工智能

2010-10-26 12:30:21

網(wǎng)絡(luò)管理

2016-09-04 15:49:46

科學方法數(shù)據(jù)中心

2018-06-29 16:00:56

數(shù)據(jù)科學家數(shù)據(jù)清理數(shù)據(jù)分析

2019-08-27 09:34:29

數(shù)據(jù)科學統(tǒng)計機器學習

2022-06-02 08:00:00

數(shù)據(jù)科學機器學習工具

2022-04-28 10:29:38

數(shù)據(jù)數(shù)據(jù)收集

2022-08-19 07:38:51

數(shù)據(jù)備份系統(tǒng)存儲

2020-12-06 15:42:22

數(shù)據(jù)科學家數(shù)據(jù)科學人工智能

2019-02-14 14:47:39

大數(shù)據(jù)數(shù)據(jù)科學家企業(yè)

2017-12-13 10:08:26

大數(shù)據(jù)圖數(shù)據(jù)推理數(shù)據(jù)科學

2024-12-04 08:00:00

數(shù)據(jù)科學數(shù)據(jù)ETL管道

2021-06-29 10:03:45

數(shù)據(jù)科學機器學習算法

2019-12-19 14:42:40

開源數(shù)據(jù)科學項目

2019-09-09 15:28:04

數(shù)據(jù)科學帕累托法則工具

2022-12-30 11:46:00

數(shù)據(jù)中臺

2018-07-12 13:47:04

數(shù)據(jù)科學變量虛擬變量

2018-04-09 11:20:40

數(shù)據(jù)科學項目數(shù)據(jù)

2019-11-14 15:56:18

開源技術(shù) 軟件
點贊
收藏

51CTO技術(shù)棧公眾號

亚州av乱码久久精品蜜桃| 中文字幕乱码日本亚洲一区二区| 欧美放荡办公室videos4k| 欧美日韩国产综合视频| 91丨九色丨蝌蚪丨老版| 在线一区日本视频| 99久久99视频只有精品| 久久精品国产亚洲高清剧情介绍| 2019亚洲男人天堂| 香蕉久久久久久| 亚洲国产免费av| 精品麻豆一区二区三区| 一级中文字幕一区二区| 国产熟人av一二三区| 国产乱一区二区| 日本成人黄色免费看| 欧美一区二区三区另类| 波多野结衣中文字幕一区| 国产精品二区在线观看| 国产精品国内免费一区二区三区| 国产91对白在线播放| 欧美三级午夜理伦三级在线观看| 久久躁日日躁aaaaxxxx| 成人午夜888| 欧美刺激性大交免费视频| 日韩一级视频| 久久成人综合视频| 精品久久国产一区| 九九热最新视频//这里只有精品 | 欧美伦理片在线看| 成人亚洲一区二区一| 天堂v在线视频| 韩国欧美国产1区| 中文字幕一区综合| 成人午夜激情视频| 人妻熟女一二三区夜夜爱| 国产午夜一区二区三区| 理论片鲁丝二区爱情网| 亚洲成a人片在线不卡一二三区| 妞干网免费视频| 夜夜嗨av一区二区三区| 在线成人一区| 欧美群妇大交群的观看方式| 成人在线网址| 国产亚洲人成网站在线观看| 青青草国产一区二区三区| 欧美成人久久久| 日韩av影院| 亚洲最大福利视频网站| 黄色精品免费| 视色,视色影院,视色影库,视色网| 91免费看片在线观看| 独立日3在线观看完整版| 色妹子一区二区| 在线观看欧美日韩电影| 国内精品久久久久久影视8| 99久久国产综合精品成人影院| 国产高清自拍一区| 国产在线精品一区二区三区不卡| 老熟妇仑乱视频一区二区 | 亚洲午夜日本在线观看| 日本中文字幕在线看| 日韩精品极品视频免费观看| 国产日韩欧美中文在线| 国产精品狠色婷| 欧美一级久久| 日本免费黄视频| 精品久久中文字幕久久av| 成年人网站在线| 美日韩精品免费视频| 亚洲精品成人无限看| 免费观看国产视频在线| 一区二区三区中文字幕电影| 激情网站在线| 国产精品久久久久久久久久久久| 免费成人在线视频观看| ·天天天天操| 日韩av在线播放资源| 国产成人黄色| 欧美aaa在线观看| 亚洲成人综合网站| 美女写真久久影院| 成人毛片网站| 中文字幕精品一区二区精品绿巨人| 亚乱亚乱亚洲乱妇| 91高清视频免费观看| 肉丝袜脚交视频一区二区| 丁香婷婷激情网| 欧美一区二区三区思思人| 日韩av综合| 色综合666| 亚洲成人免费观看| 欧美精品资源| 黄色国产精品一区二区三区| 国产精品情趣视频| 亚洲女同志freevdieo| 成人亚洲综合色就1024| 99久久精品久久久久久清纯| av网站无病毒在线| 日本伊人精品一区二区三区介绍 | 在线观看91久久久久久| 亚洲色图网站| 国产成人精品视频ⅴa片软件竹菊| 欧美日韩激情一区| 妖精一区二区三区精品视频| 日本黄网站色大片免费观看| 在线中文字幕不卡| 在线日本制服中文欧美| www.av毛片| 亚洲精品美女久久久| 亚洲精品免费观看| 在线观看一级片| 97超碰国产精品女人人人爽| 成人午夜精品在线| 精品人人视频| 欧洲一区二区在线| 欧美在线不卡视频| 啪啪亚洲精品| 国产成人手机视频| 色婷婷综合成人av| 久草这里只有精品视频| 69av亚洲| 国产一区二区不卡视频| 岛国视频午夜一区免费在线观看| 里番精品3d一二三区| 国产成人精品无码播放| 色妞在线综合亚洲欧美| 国产精品白丝av| 亚洲人体影院| 丰满女人性猛交| 日韩精品免费观看| 久久99热这里只有精品| 国内外激情在线| 欧美二区三区| 在线不卡欧美精品一区二区三区| 国产精品chinese| 新欧美整片sss第一页| 国产精品视频午夜| 亚洲成人黄色影院| 欧美超碰在线| 四虎电影院在线观看| 91国产丝袜在线放| 欧美日韩中文国产| 国产日韩综合| av蜜臀在线| 丁香婷婷综合激情| www.xxxx精品| 国产精品久久久久久久久久久免费看| 视频一区在线| 亚洲77777| 日本精品免费一区二区三区| 一区二区三区精品视频在线| 国产中文精品久高清在线不| 女人体1963| 91久久久国产精品| 在线不卡的av| 国产精品 日产精品 欧美精品| 亚洲最大网站| 能看的毛片网站| 国产精品第一第二| 欧美日韩一区二区欧美激情| 日日夜夜精品免费视频| 超碰99在线| 久久久久久久久久久视频| 欧美精品videossex88| 一区二区三区**美女毛片| 欧美影院三区| 国内外激情在线| 国产日韩av网站| 欧洲精品久久久| 欧美日本乱大交xxxxx| 久久成人免费网| 日韩精品成人在线观看| 国产在线导航| 少妇特黄a一区二区三区| www国产亚洲精品久久网站| 亚洲柠檬福利资源导航| 狠狠爱成人网| av一区在线| 理论片鲁丝二区爱情网| 久久久久久精| 久久精品国产96久久久香蕉| 一个色妞综合视频在线观看| 最新亚洲激情| 激情中国色综合| 青青草免费在线视频| 亚洲一区三区电影在线观看| 欧美成在线视频| 在线亚洲一区二区| 国产成人av电影在线| 欧美中文一区二区| caoporn视频在线观看| 亚洲综合日韩欧美| 精品无人区一区二区三区竹菊| 中文字幕成人精品久久不卡 | 西野翔中文久久精品国产| 欧美三级黄网| 丰满少妇在线观看| 日韩电影大全在线观看| 2018日韩中文字幕|