By Kajal Yadav, a freelance writer on data science, startups & entrepreneurship.

Lähde Unsplash, edited by the author.

Oletko innoissasi astuessasi Data Science maailmaan? Onnittelut! Se on edelleen oikea valinta, koska Data Sciencen ja tekoälyn alalla tehtyjen töiden tarve kasvaa lopullisesti tämän pandemian aikana.

Vaikka kriisin vuoksi markkinat muuttuvat tällä hetkellä kovemmiksi, jotta ne voidaan perustaa uudelleen useamman miehen voimin, kuten ne tekevät aiemmin. Joten, Saattaa olla mahdollista, että sinun on valmistauduttava henkisesti pitkäaikaiseen palkkaamiseen ja moniin hylkäyksiin matkan varrella.

Tässä, kirjoittaessani tätä artikkelia, oletan, että tiedät jo, että datatieteen salkku on ratkaisevan tärkeää ja miten se rakennetaan.
Vietät ehkä suurimman osan ajastasi datan murskaamiseen ja vääntämiseen etkä hienojen mallien soveltamiseen.

Yksi kysymys, jota datatieteen harrastajat ovat kyselleet minulta kerta toisensa jälkeen, on se, että millaisia projekteja heidän tulisi sisällyttää portfolioonsa rakentaakseen valtavan hyvän ja ainutlaatuisen portfolion.

Alhaalla annan 8 ainutlaatuista ideaa datatieteen portfolioosi liitteenä olevine viiteartikkeleineen, joista saat oivalluksia siitä, miten pääset alkuun minkä tahansa tietyn idean kanssa.

Sentimenttianalyysi masennuksen löytämiseksi sosiaalisen median postausten perusteella

Photo by dole777 on Unsplash.

Tämä aihe on niin arkaluonteinen, että sitä pitää ottaa huomioon nykyään ja sille on kiireesti tehtävä jotakin. Maailmassa on yli 264 miljoonaa ihmistä, jotka kärsivät masennuksesta. Masennus on maailmanlaajuisesti tärkein työkyvyttömyyden aiheuttaja ja merkittävä tukija maailmanlaajuisessa tautitaakassa, ja lähes 800 000 ihmistä kuolee johdonmukaisesti itsemurhan vuoksi joka vuosi. Itsemurha on toiseksi tärkein kuolinsyy 15-29-vuotiaiden keskuudessa. Masennuksen hoito viivästyy usein, on epätarkkaa tai jää kokonaan saamatta.

Internet-pohjainen elämä antaa tärkeimmän mahdollisuuden muuttaa varhaisen melankolian sovittelupalveluja, erityisesti nuorilla aikuisilla. Jatkuvasti Twitterissä lähetetään noin 6 000 twiittiä, mikä tarkoittaa yli 350 000 twiittiä joka hetki, 500 miljoonaa twiittiä joka päivä ja noin 200 miljardia twiittiä joka vuosi.

Pew Research Centerin mukaan 72 % väestöstä käyttää jonkinlaista internetpohjaista elämää. Sosiaalisista verkostoista vapautuvat tietokokonaisuudet ovat tärkeitä lukuisille aloille, esimerkiksi ihmistieteille ja aivotutkimukselle. Erikoisalan näkökulmasta tuet ovat kuitenkin kaukana riittämättömistä, ja eksplisiittiset menetelmät ovat epätoivoisesti onnensa nojassa.

Analysoimalla sosiaalisen median viesteissä esiintyviä kielellisiä merkkejä on mahdollista luoda syväoppimismalli, joka voi antaa yksilölle tietoa hänen mielenterveydestään paljon perinteisiä lähestymistapoja aikaisemmin.

  • Olet mitä twiittaat – Sosiaalisen median masennuksen havainnoiminen Twitterin käytöstä
  • Masennuksen varhainen havainnointi
  • Masennuksen varhainen havainnointi: Social Network Analysis and Random Forest Techniques – Original paper, University of A Coruna.
  • Depression detection from social network data using machine learning techniques

Sports match video to text summarization using neural network

Photo by Aksh yadav on Unsplash.

Tämä projekti-idea perustuu siis pohjimmiltaan täsmällisen yhteenvedon saamiseen urheiluotteluvideoista. On olemassa urheilusivustoja, jotka kertovat ottelun kohokohdat. Erilaisia malleja on ehdotettu ekstraktiivisen tekstin tiivistämisen tehtävään, mutta neuroverkot tekevät parhaan työn. Tiivistäminen viittaa pääsääntöisesti tiedon esittelyyn lyhyessä rakenteessa keskittyen tosiasioita ja tietoa välittäviin osiin ja säilyttäen samalla tärkeyden.

Automaattinen tiivistelmän luominen otteluvideosta synnyttää haasteen erottaa ottelun kiehtovat minuutit tai kohokohdat.

Se voidaan siis saavuttaa käyttämällä joitakin syväoppimistekniikoita, kuten 3D-CNN (kolmiulotteiset konvoluutioverkot), RNN (rekursiivinen neuroverkko), LSTM (pitkät lyhytkestoisen muistin verkot), ja myös koneoppimisalgoritmeilla jakamalla video eri osiin ja soveltamalla sitten SVM- (tukivektorikoneet), NN- (neuroverkot) ja k-means-algoritmeja.

Paremman ymmärryksen saamiseksi tutustu oheiseen artikkeliin yksityiskohtaisesti.

  • Scene Classification for Sports Video Summarization Using Transfer Learning – Tässä artikkelissa ehdotetaan uutta menetelmää urheiluvideoiden kohtausluokitteluun.

Handwritten equation solver using CNN

Photo by Antoine Dautry on Unsplash.

Käsinkirjoitettujen matemaattisten ilmaisujen tunnistaminen on yksi hämmentävistä kysymyksistä tietokonenäön tutkimuksen alueella. Voit kouluttaa käsinkirjoitetun yhtälönratkaisijan käsinkirjoitettujen numeroiden ja matemaattisten symbolien avulla käyttämällä konvolutiivista neuroverkkoa (Convolutional Neural Network, CNN) joidenkin kuvankäsittelytekniikoiden avulla. Tällaisen järjestelmän kehittäminen edellyttää koneidemme kouluttamista datan avulla, jotta ne oppisivat ja tekisivät tarvittavat ennusteet.

Katso alla olevia artikkeleita paremman ymmärryksen saamiseksi.

  • Käsinkirjoitettu yhtälönratkaisija käyttäen konvolutiivista neuroverkkoa
  • vipul79321/Handwritten-Equation-Solver – Käsin kirjoitetun yhtälönratkaisijan käyttäminen CNN:n avulla Yhtälö voi sisältää minkä tahansa numeron väliltä 0-9 ja symbolin.
  • Computer Vision – Auto grading Handwritten Mathematical Answer sheets – Vapaalla kädellä paperille kirjoitetun matemaattisen yhtälön ratkaisun vaiheiden digitointi.
  • Käsin kirjoitetut yhtälöt LaTeXiin

Liikekokouksen yhteenvedon tuottaminen NLP:n avulla

Kuva: Sebastian Herrmann on Unsplash.

Oletko koskaan joutunut tilanteeseen, jossa kaikki haluavat nähdä yhteenvedon eivätkä koko raporttia? No, olen kohdannut sen koulu- ja opiskeluaikana, jolloin käytimme paljon aikaa koko raportin laatimiseen, mutta opettajalla on aikaa lukea vain yhteenveto.

Yhteenveto on noussut vääjäämättömän hyödylliseksi tavaksi ratkaista tiedon ylikuormitusta koskeva ongelma. Tietojen poimimisella keskusteluista voi olla erittäin hyvä kaupallinen ja opetuksellinen arvo. Tämä voidaan tehdä ottamalla ominaisuuksina talteen tilastolliset, kielelliset ja sentimentaaliset näkökohdat keskustelun dialogirakenteella.

Kertomuksen muuttaminen manuaalisesti tiivistettyyn muotoon on liian aikaa vievää, eikö olekin? Mutta siinä voidaan luottaa luonnollisen kielen prosessointitekniikoihin (Natural Language Processing, NLP).

Tekstin tiivistäminen syväoppimisen avulla voi ymmärtää koko tekstin kontekstin. Eikö se olekin unelmien täyttymys meille kaikille, jotka tarvitsemme nopeaa tiivistelmää asiakirjasta!

Katso alla olevia artikkeleita, jotta ymmärrät paremmin.

  • Comprehensive Guide to Text Summarization using Deep Learning in Python – ”En halua täydellistä raporttia, anna minulle vain yhteenveto tuloksista”.”
  • Ymmärrä tekstin tiivistäminen ja luo oma tiivistämisesi pythonissa – Tiivistäminen voidaan määritellä tehtäväksi tuottaa tiivis ja sujuva tiivistelmä säilyttäen samalla keskeiset tiedot.

Kasvojentunnistus tunnistaa mielialan ja ehdottaa kappaleita sen mukaan

Photo by Alireza Attari on Unsplash.

Ihmisen kasvot ovat tärkeä osa yksilön kehoa, ja erityisesti niillä on merkittävä rooli ihmisen mielentilan tuntemisessa. Tämä poistaa ikävän ja tylsän tehtävän, joka liittyy kappaleiden manuaaliseen eristämiseen tai ryhmittelyyn eri levyihin, ja auttaa luomaan sopivan soittolistan yksilön tunnepiirteiden perusteella.

Ihmisillä on taipumus kuunnella musiikkia mielialansa ja kiinnostuksen kohteidensa mukaan. Kasvojen ilmeitä kuvaamalla voidaan luoda sovellus, joka ehdottaa käyttäjille kappaleita heidän mielialansa perusteella.

Tietokonenäkö on monitieteinen ala, joka auttaa välittämään korkeatasoisen ymmärryksen digitaalisista kuvista tai videoista tietokoneille. Tietokonenäön komponentteja voidaan käyttää käyttäjän tunteiden määrittämiseen kasvojen ilmeiden perusteella.

On myös näitä API:ita, joita pidin mielenkiintoisina ja hyödyllisinä. En kuitenkaan työskennellyt näiden parissa, vaan liitän ne tähän siinä toivossa, että näistä on apua sinulle.

  • 20+ Emotion Recognition APIs That Will Leave You Impressed, and Concerned | Nordic APIs – Jos yritykset pystyisivät aistimaan tunteita tekniikan avulla koko ajan, ne voisivat hyödyntää sitä myydäkseen kuluttajille.

Keplerin kaltaisten avaruusalusten

Photo by Nick Owuor (astro.nic.visuals) on Unsplash.

Viimeisimmällä vuosikymmenellä seurattiin yli miljoonaa tähteä, jotta saataisiin tunnistettua transitoivia planeettoja. Mahdollisten eksoplaneettaehdokkaiden manuaalinen tulkinta on työlästä ja altis inhimillisille virheille, joiden seurauksia on vaikea arvioida. Convolutional neural networks are fit for identifying Earth-like exoplanets in noisy time-series data with more prominent precision than a least-squares strategy.

  • Exoplanet hunting using Machine Learning – Hunting worlds beyond our solar system.
  • Tekoälyä, NASA-dataa käytetään eksoplaneettojen löytämiseen – Aurinkokuntamme on nyt tasapisteissä eniten planeettoja yhden tähden ympärillä.

Kuvan elvytys vanhalle vaurioituneelle kelakuvalle

Lähde Pikist.

Tiedän, kuinka aikaa vievää ja tuskallista on saada vanha vaurioitunut valokuva takaisin alkuperäisessä muodossaan sellaisena kuin se oli aiemmin. Tämä voidaan siis tehdä syväoppimisen avulla etsimällä kaikki kuvan viat (murtumat, naarmut, reiät) ja käyttämällä maalausalgoritmeja, jotta voidaan helposti löytää viat niiden ympärillä olevien pikseliarvojen perusteella vanhojen valokuvien palauttamiseksi ja värjäämiseksi.

  • Vanhojen kuvien värjääminen ja palauttaminen syväoppimisen avulla – Mustavalkoisten kuvien värjäämisestä syväoppimisen avulla on tullut vaikuttava näytös todellisesta maailmasta.
  • Guide to Image Inpainting: Koneoppimisen käyttäminen kuvien virheiden muokkaamiseen ja korjaamiseen
  • How To Perform To Perform Image Restoration Absolutely DataSet Free

Musiikin tuottaminen syväoppimisen avulla

Kuvan on ottanut Abigail Keenan Unsplashilla.

Musiikki on valikoima eri taajuuksisia sävyjä. Automaattinen musiikin tuottaminen on siis prosessi, jossa sävelletään lyhyt musiikkikappale mahdollisimman vähällä ihmisen välityksellä. Viime aikoina syväoppimistekniikasta on tullut ohjelmoidun musiikin generoinnin eturintamassa.

  • Musiikin generointi syväoppimisen avulla
  • Kuinka luoda musiikkia käyttämällä LSTM-neuraaliverkkoa Kerasissa – Johdatus musiikin luomiseen LSTM-neuraaliverkkojen avulla

LOPPUSANAT

Tiedän kyllä, että siistin datatieteellisen portfolion rakentaminen on todellista taistelua. Mutta tällaisella kokoelmalla, jonka olen edellä tarjonnut, voit edetä keskimääräistä paremmin tällä alalla. Kokoelma on uusi, mikä antaa mahdollisuuden myös tutkimustarkoituksiin. Joten myös datatieteen tutkijat voivat valita näitä ideoita työstettäväksi, jotta heidän tutkimuksensa olisi suuri apu datatieteilijöille projektin aloittamisessa. Lisäksi on hauskaa tutkia puolia, joita kukaan ei ole tehnyt aiemmin. Tosin tämä kokoelma koostuu itse asiassa ideoista alkeista edistyneisiin.

Siten en suosittele tätä vain datatieteen aloittelijoille, vaan myös vanhemmille datatieteilijöille. Se avaa monia uusia polkuja urasi aikana, ei vain projektien takia vaan myös juuri hankitun verkoston kautta.

Nämä ideat näyttävät sinulle laajan valikoiman mahdollisuuksia ja antavat ideoita ajatella laatikon ulkopuolelta.

Mulle ja ystävilleni oppimistekijät, lisäarvon tuottaminen yhteiskunnalle ja tutkimaton tietämys ovat tärkeitä, ja hauskuus on tavallaan olennaista. Periaatteessa nautin siis sellaisten projektien tekemisestä, jotka antavat meille tavan hankkia valtavasti tietoa ja joiden avulla voimme tutkia tutkimattomia ulottuvuuksia. Se on pääpainopisteemme, kun omistamme aikaa tällaisille hankkeille.

Original. Reposted with permission.

Bio: Kajal Yadav on freelance-kirjailija, joka on erikoistunut datatieteeseen, startupeihin ja yrittäjyyteen. Hän kirjoittaa useisiin julkaisuihin ja työskentelee samalla startup-yritysten kanssa niiden sisältömarkkinointistrategioiden parissa.

Related:

  • Aloita koneoppimisen urasi karanteenissa
  • Projekteja, jotka kannattaa sisällyttää datatieteelliseen portfolioon
  • Miten rakentaa datatieteellinen portfolio

admin

Vastaa

Sähköpostiosoitettasi ei julkaista.

lg