10 otázok pre prvého hlavného vedca údajov v krajine

10 otázok pre prvého hlavného vedca údajov v krajine

Je to len osem rokov, čo DJ Patil – vtedajší vedúci v oblasti údajov a analytiky na LinkedIn – spoluvytváral termín „dátový vedec“, ale táto profesia sa už stala jednou z najpopulárnejší v krajine .

Patil sa už dlho venuje dátovému priemyslu. Ako doktorand a následný člen fakulty na University of Maryland používal otvorené súbory údajov z NOAA na zlepšenie numerickej predpovede počasia. Takmer dva roky bol riaditeľom stratégie, analytiky a produktov v eBay, Inc.; na LinkedIn strávil takmer tri roky; a on napísal knihy o kultúre údajov a budovaní dátových produktov. Minulý rok Biely dom deklaroval svoju vlastnú podporu dátovej vedy od vymenovanie Patil ako jeho prvý americký hlavný dátový vedec a ako jeho zástupca hlavného technologického riaditeľa pre dátovú politiku v Úrade pre vedu a technológiu.



Prečo sa vláda rozhodla, že potrebuje hlavného dátového vedca a čo táto pozícia obnáša? Science Friday sa rozprával s Patilom o tom, čo ho priviedlo k záujmu o údaje, čo znamená byť „údajovým vedcom“ a kam vidí smerovanie priemyslu.

DJ Patil. © 2012 Eric Millette, Všetky práva vyhradené

Ako ste prvýkrát začali pracovať s dátami?
Nasávam matematiku, všeobecne povedané. Sotva som prešiel hodinami matematiky na strednej škole a mal som veľké šťastie, že som išiel na strednú školu priamo na ulici [v Kalifornii] s názvom De Anza College. Najlepšie rozhodnutie, aké som kedy urobil, bolo ísť na rovnakú hodinu ako moja priateľka [smiech] a ona chodila na matematiku, tak som išiel na túto hodinu. A povedal som si: ‚Sakra, nič neviem; je to veľmi trápne.‘ Naozaj som mal ten moment, keď som sa rozhodol, že sa to naučím a tiež zapôsobím na svoju priateľku. Akosi rýchlo som to pochytil a matematiku som si zamiloval.

Odtiaľ som prešiel na UCSD, kde som začal skutočne pracovať na množstve dátových aspektov okolo teórie chaosu. Odtiaľ som išiel na Marylandskú univerzitu, domov teórie chaosu, a jedným z mojich poradcov bol Jim [James] Yorke, ktorý vymyslel termín „ teória chaosu .“

Začali sme pracovať na predpovedi počasia . Naozaj sme narazili na to, že počasie nebolo také chaotické, ako ľudia predtým verili. Spôsob, akým sme to urobili, bol tak, že som každý večer okolo 20:00 vošiel dnu, tajne som prevzal každý počítač na katedre matematiky a potom som stiahol všetky tieto údaje z Národnej meteorologickej služby, roztrhal som ich a dal dokopy. rôznymi spôsobmi – a potom odísť pred 8:00, keď niekto prišiel. A to nám umožnilo nájsť tieto skutočne zaujímavé vzory. Bol to pre mňa „a-ha!“ moment: Oh, wow, ak dokážete získať údaje, môžete robiť naozaj neuveriteľné veci. Potom, čo sme to urobili, sa to stalo jednou z hlavných techník používaných pri predpovedi počasia.

Potom ste pomohli vytvoriť výraz „ vedec dát “ (s Jeffom Hammerbacherom, vtedajším správcom údajov na Facebooku), však?
Áno. je to dobré aj zlé. Myslím, že je tu zaujímavá otázka: No, čo je dátový vedec? Nie je to len vedec? Nepoužívajú vedci len údaje? Čo teda ten pojem vôbec znamená?

V relácii ste mali jednu z mojich spoluautorov, Hilary Masona vec, o ktorej vtipkujeme a o ktorej sme spolu písali, je, že prvoradá vec v popise práce vedcov údajov je, že je amorfný. Neexistuje žiadna konkrétna vec, ktorú robíte; dielo stelesňuje všetky tieto rôzne veci. Robíte všetko, čo potrebujete, aby ste vyriešili problém.

Ak staviate samoriadiace auto, kto sú tí ľudia, ktorí stavajú samoriadiace auto? Sú to dátoví vedci – či už sú to produktoví manažéri, dizajnéri, čokoľvek. Sú to ľudia, ktorí používajú tieto techniky a nápady z ekonómie, zo štatistiky, zo strojového učenia, z umelej inteligencie, zo všetkých týchto disciplín, aby to konkrétne fungovalo, aby auto jazdilo tak, aby ste boli v bezpečí a ostatní tiež v bezpečí.

Najlepší dátoví vedci majú jednu spoločnú vec: neuveriteľnú zvedavosť.

Ako sa zmenil dátový priemysel a prečo si myslíte, že sa stalo populárnym byť dátovým vedcom?
Myslím si, že dôvod, prečo aspekt vedy o údajoch teraz skutočne rozkvitol, je ten, že ľudia sú schopní zbierať údaje oveľa jednoduchšie ako predtým; nie je na to veľa úsilia. Druhým je, že teraz, keď ľudia môžu zhromaždiť dostatočné množstvo údajov, je tu otázka, dobre, tak čo s tým máme robiť? A SZO 'skutočne to urobí?

Ako si myslíte, že si Biely dom uvedomil, že potrebuje hlavného dátového vedca?
No, jedna z vecí, ktoré ľudia nie vždy brali do úvahy, je, ako veľmi sa tento prezident od prvého dňa zameral na údaje. Aj keď v jeho kampani ustúpite, veľmi sa zameriava na používanie údajov novými spôsobmi, ako zaujať verejnosť. Pri nástupe do administratívy sa zameral na všetko od toho, ako pacienti získajú lepší prístup k údajom, až po to, ako zabezpečiť, aby sme údaje používali na transparentnosť – [t. j.] zvýšenie množstva údajov, ktoré sú tam otvorené. vytvorili sme data.gov , kde je takmer 200 000 datasetov, ktoré sú dostupné pre každého. Ako používame údaje na zlepšenie služieb pre všetkých? V skutočnosti [prezident Obama] áno vykonávací príkaz že všetky vládne dáta sú štandardne otvorené a strojovo čitateľné a že dáta, ktoré sa zverejňujú pomocou federálnych dolárov za výskum, by mali byť zadarmo, pretože kto to zaplatil? Daňoví poplatníci. (Existuje časové okno, kedy chceme, aby [zdravotné] časopisy mali exkluzívny prístup, ale z dlhodobého hľadiska by za to verejnosť nemala platiť.)

Rovnako ako bol prvým prezidentom, ktorý mal technologického riaditeľa, aj on si uvedomil, že musí existovať tím, ktorý sa sústredí na to, ako uvoľniť silu údajov, aby sme skutočne prospeli každému jednému Američanovi.

Teraz zastávate túto pozíciu viac ako rok. Aký je váš doterajší najväčší úspech?
Úspech, na ktorý som doteraz najviac hrdý, je to, že vedci zaoberajúci sa údajmi sú teraz intenzívne a intenzívne zapojení do práce na týchto problémoch, a tak mnohé z federálnych agentúr majú teraz dátový tím alebo hlavného dátového vedca alebo hlavného dátového dôstojníka. Vezmite si napríklad dopravu. Majú hlavného pracovníka pre údaje, ktorý sa zameriava na: Ako o tom ministerstvo dopravy uvažuje novým spôsobom? Národný inštitút zdravia má človeka, ktorý sa zameriava na nové spôsoby myslenia o údajoch. Rovnako aj ministerstvo poľnohospodárstva USA. Dokonca aj USAID. Každý teda uvažuje o údajoch ako o multiplikátore sily.

'Najlepší dátoví vedci majú jednu spoločnú vec: neuveriteľnú zvedavosť.'

Kam vidíte budúcnosť dátového priemyslu?
Pre mňa v budúcnosti je najvzrušujúcejšie, ako budú údaje súčasťou každej jednej konverzácie a že vďaka tomu budeme robiť rýchlejšie a kvalitnejšie rozhodnutia. Čo sa stane, je, že sa nebudeme len pozerať na dáta raz za 10 rokov, aby sme niečo vyhodnotili – budeme sa na dáta pozerať veľmi pravidelne a budeme ich korigovať v oveľa väčšom reálnom čase. A to nám umožní, aby vláda poskytovala lepšie služby a bola agilnejšia.

Akú radu máte pre niekoho, kto sa chce stať dátovým vedcom?
Nikdy nie je lepší čas začať. Stačí ísť na data.gov . Existuje takmer 200 000 súborov údajov, z ktorých ak ich práve začnete sťahovať, hrajte sa s nimi. Jednou z najlepších vecí, ktoré teraz môžete urobiť, je pracovať s údajmi na úrovni vášho miestneho mesta. Existuje a Národný deň občianskeho hackingu [4. júna 2016] a v ten deň sa v celej krajine stane to, že ľudia budú mať vo svojom miestnom meste hackathon, budú pracovať na údajoch na miestnej úrovni. Tieto údaje môžu použiť na zlepšenie svojich miestnych komunít.

Aké sú podľa vás najväčšie výzvy, ktorým čelí dátový priemysel?
Niečo, čo považujem za skutočne dôležité a po čom som žiadal, je, že každý jeden školiaci program – či už ide o vysokoškolské, postgraduálne alebo online kurzy v oblasti dátovej vedy – musí obsahovať etiku údajov nie ako voliteľnú, ale ako ústrednú zásadu toho, ako to robíme. veci. Keď pracujeme s údajmi, máte neuveriteľné príležitosti robiť s nimi skvelé veci a máte tiež možnosť urobiť niečo, čo môže byť veľmi problematické. Vidíme, kde ľudia používali údaje spôsobmi, o ktorých si myslíme, že v zásade nie sú v poriadku. Ľudia o tom začali hovoriť a čo by sme s tým mali robiť. Myslím, že musíme viesť oveľa silnejší rozhovor. Súkromie sú rovnako dôležité.

Tiež si myslím, že musíme vyškoliť oveľa viac ľudí, aby používali dáta. „Použiť údaje“ znamená, ako čítať graf na úplne základnej úrovni, až po vykonávanie veľmi sofistikovaných vecí. Posilnenie postavenia ľudí pomocou údajov v ich každodennom živote umožňuje ľuďom lepšie ovládať svoj osud. Mohlo by to byť niečo také jednoduché ako: Ako si vyberáte vysokú školu? To je dôvod, prečo tak tvrdo pracujeme s ministerstvom školstva na vybudovaní College Scorecard , ktorá dáva ľuďom transparentnosť novým spôsobom.

Zaznamenáte niekedy vo svojej úlohe spätnú reakciu?
Myslím si, že najväčší odpor je v tom, ako spravujeme aspekt ochrany osobných údajov a ako súčasne uvažujeme o kybernetickej bezpečnosti? Dôvod, prečo si nemyslím, že spätná reakcia je celkom správne slovo, je ten, že každý tu uznáva hodnotu, takže to nie je „ale“ – je to „a“. Ako používať údaje a chrániť súkromie a zabezpečiť kybernetickú bezpečnosť? Nezískal som nikoho, kto by sa hneval na problémy, na ktorých pracujeme; Myslím, že náš problém je, prečo na tom nepracujete že ? Možno je to najväčší odpor.

Ako sa teda vysporiadate s týmito obavami o súkromie a kybernetickú bezpečnosť?
Veľmi sa na nich sústredím. V skutočnosti sú integrované do všetkého, čo sme urobili. Napríklad v Iniciatíva presnej medicíny , vydali sme zásady súkromia a dôvery veríme, že to bude aplikácia pre každého, kto robí tento druh biomedicínskeho výskumu. Potom sme zverejnili návrh bezpečnostného rámca pre akýkoľvek výskum tohto typu a čoskoro ho dokončíme. Takže praktizujeme to, čo kážeme, pretože etika údajov je neuveriteľnou súčasťou každej jednej veci, ktorú robíme.

Tento článok bol upravený kvôli priestoru a prehľadnosti.