Si vous vous préparez à faire carrière en tant que scientifique spécialisé dans les données ou si vous cherchez des occasions afin de vous perfectionner dans votre rôle actuel, cette analyse des compétences recherchées pour 2021, basée sur plus de 15 000 offres d'emploi de spécialistes des données, pourrait vous donner une idée des langages de programmation et des outils logiciels dont l'importance augmente et diminue. Pour cette analyse, Shin a répertorié les offres d'emploi publiées sur Indeed, Monster et SimplyHired. Il a déclaré n'avoir pas pris en compte LinkedIn en raison de problèmes de Captcha.
Shin a ensuite vérifié combien d'offres d'emploi comprenaient chacun des termes suivants :
- Python, SQL, R, Java, Git, C, MATLAB, Excel, C++, JavaScript, C#, Julia, Scala, SAS ;
- Scikit-learn, Pandas, NumPy, SciPy ;
- Matplotlib, Looker, Tableau ;
- TensorFlow, PyTorch, Keras ;
- Spark, Hadoop, AWS, GCP, Hive, Azure, Google Cloud, MongoDB, BigQuery ;
- Docker, Kubernetes, Airflow ;
- NoSQL, MySQL, PostgreSQL ;
- Caffe, Alteryx, Perl, Cassandra, Linux.
Après avoir obtenu les chiffres de chaque source, il les a additionnés, puis divisés par le nombre total d'offres d'emploi de spécialistes des données pour obtenir un pourcentage. Par exemple, la valeur de 0,77 pour Python signifie que 77 % des offres d'emploi contenaient Python. Enfin, il a comparé les résultats à ceux d'une analyse effectuée en 2019 pour obtenir le pourcentage de changement de 2019 à 2021.
Python accompagne le boom de la science des données
Selon certains analystes, en 2021, la science des données devrait devenir une capacité à l'échelle de l'entreprise qui aurait un impact sur chaque secteur d'activité et département fonctionnel. Si cela s'avérait juste, alors le langage le plus susceptible de dominer devrait être celui qui est le plus accessible à la population la plus large de l'entreprise. Sur le graphique présenté par Shin montrant les 25 compétences les plus demandées en 2021 en science des données, Python arrive en tête, apparaissant dans plus de 77 % des offres emplois répertoriées. Le reste du top 5 est formé par SQL (59 %), R (54 %), Spark (26 %) et AWS (26 %).
Shin estime que R reste très pertinent dans la science des données, ce qui ne devrait pas changer dans un avenir proche. Cela dit, il estime que davantage de spécialistes des données passent de R à Python que l'inverse (deux fois plus, selon lui). D'après ses explications, l'on pourrait expliquer ce phénomène par l'amélioration de la convivialité, des performances et de l'écosystème de Python, entre autres. Shin a déclaré que R reste largement utilisé pour le calcul statistique, mais comme de plus en plus d'entreprises adoptent la science des données d'un point de vue technique et non scientifique, Python devrait continuer à monter en flèche.
En observant davantage les graphiques, l'on remarque que les technologies/outils qui semblent connaître la croissance la plus rapide sont celles qui semblent avoir une courbe d'apprentissage plus facile. Ainsi, si TensorFlow et PyTorch ont tous deux connu une croissance, celle de PyTorch a largement dépassé celle de TensorFlow, probablement en raison de la popularité de Python. La popularité de PyTorch commence également à se répercuter sur les projets eux-mêmes, le nombre cumulé de contributeurs à PyTorch pourrait ainsi dépasser le nombre de contributeurs à TensorFlow dans un avenir proche.
Autres observations issues de l'analyse de Shin
Les principaux langages de programmation
Pour obtenir une vision plus granulaire, le graphique ci-dessous présente les principaux langages de programmation pour les spécialistes des données.
Principales bibliothèques Python
Le graphique ci-dessous présente les principales bibliothèques Python pour les spécialistes des données.
TensorFlow se classe premier, car c'est l'une des bibliothèques Python les plus populaires pour l'apprentissage profond. PyTorch est une alternative solide, ce qui explique son classement. Ensuite, il estime que Scikit-learn serait la bibliothèque la plus importante de Python pour l'apprentissage automatique. Après avoir nettoyé et manipulé vos données avec Pandas et/ou NumPy, Scikit-learn est utilisé pour construire des modèles d'apprentissage automatique, car il possède de nombreux outils utilisés pour la modélisation et l'analyse prédictive.
Compétences dont la croissance et le déclin sont les plus rapides
Le graphique ci-dessous montre les compétences dont la croissance est la plus rapide entre 2019 et 2021.
Le graphique ci-dessous montre les compétences dont le déclin est le plus rapide entre 2019 et 2021.
Source : Terence Shin
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi
DataSpell : JetBrains lance un nouvel environnement de développement intégré pour la science des données et vous invite à rejoindre le programme d'accès anticipé à l'EDI
Science des données : Julia, R ou Python ? Un petit aperçu des avantages et inconvénients du langage Julia
La demande et les salaires de spécialistes en science des données augmentent plus rapidement que le nombre de demandeurs d'emploi, d'après Indeed
Python est plus utilisé pour la data science que pour le développement Web, d'après une enquête réalisée par la Python Software Foundation
Sondage : entre R et Python, lequel des deux langages est le plus conseillé pour la science des données ?