banner

Blog

Dec 09, 2023

La puissance de SQL pour les futurs data scientists

Histoire réservée aux membres

Meagan Voulo

Suivre

Investisseur piloté par les données

--

Partager

Ma transition vers le monde de la science des données n'a pas été traditionnelle. J'ai fait des études de psychologie, j'ai commencé à travailler dans le marketing, j'ai écrit en parallèle et je me suis finalement inscrit à un BootCamp de science des données à l'âge de 27 ans. Cela dit, j'ai traité mon BootCamp de science des données à Springboard comme un travail à temps plein.

J'ai passé au moins 40 heures par semaine à suivre mes cours et à faire des recherches supplémentaires par moi-même pour mieux comprendre les concepts. Mais même après avoir obtenu mon diplôme de ce programme, je ne me sentais pas pleinement préparé à décrocher un emploi de data scientist. Au lieu de cela, j'ai recherché des rôles d'analyste de données et d'analyste marketing. Après avoir décroché mon premier rôle d'analyste de données, j'ai appris que même si j'étais assez compétent avec Python, l'analyse exploratoire des données et la modélisation, je n'avais pas une bonne maîtrise de l'interrogation des données.

Pour remédier à cette lacune, j'ai recherché des ressources pour pratiquer SQL. Avec le recul, c'est probablement la meilleure chose que j'aurais pu faire après avoir terminé mon camp d'entraînement intensif en science des données Python. Pour ceux qui essaient de se lancer en tant que data scientist, j'ai trouvé qu'il y a une très bonne raison d'apprendre SQL : avec cela, vous êtes indispensable…

Vous pensez peut-être que j'exagère, mais c'est la vérité. Sur le marché du travail actuel, rien n’est sûr. Les licenciements technologiques se produisent à gauche et à droite, sans rime ni raison. En tant que personne anxieuse à propos de ce genre de choses, je me suis donné un objectif à atteindre et j'ai décidé que ce serait mon ticket pour la sécurité de l'emploi… être le meilleur analyste en science des données de mon entreprise.

Pour ce faire, j'ai déterminé que je devais non seulement connaître Python, mais également maîtriser SQL. Voici mon raisonnement :

Si je peux extraire mes propres données, je n'ai pas besoin de faire appel à un analyste ou à un ingénieur pour obtenir les informations dont j'ai besoin pour mes modèles d'apprentissage correspondants.

Le plus souvent, les gens connaissent la règle de la science des données 80/20, qui stipule que 80 % de la science des données prépare les données et 20 % les analyse et les rend compte. Bien sûr, une partie de ce nettoyage de données peut être effectuée à l'aide de Python, mais en maîtrisant parfaitement SQL, je me suis assuré de pouvoir gérer les données, vérifier les incohérences et les erreurs, et les nettoyer avant de les insérer dans mon bloc-notes.

PARTAGER