Le professeur #
Daniel Lemire est professeur d’informatique à l’Université du Québec (TELUQ). Il est classé dans les 2 % des meilleurs scientifiques (classement Stanford University/Elsevier, 2024). Il fait partie des 1000 programmeurs les plus suivis au monde sur GitHub; GitHub compte plus de 100 millions de développeurs. Il a publié plus de 85 articles de recherche évalués par des pairs. Ses travaux se retrouvent dans de nombreuses bibliothèques standard (.NET, Rust, GCC/glibc++, LLVM/libc, Go, Node.js, etc.) et dans les principaux navigateurs web (Safari, Chrome, etc.). Il est rédacteur de la revue Software : Practice and Experience (Wiley, créée en 1971). En 2020, il a reçu le Prix d’excellence 2020 de l’Université du Québec pour ses travaux sur l’accélération de l’analyse JSON. Ses recherches portent notamment sur la programmation haute performance. Il est @lemire sur X et tient un blog hebdomadaire à l’adresse https://lemire.me/blog. On peut aussi le trouver sur GitHub.
- Les géants du numérique raffolent des algorithmes de ce prof québécois, Journal de Montréal, octobre 2024
- Le professeur Daniel Lemire de l’Université TÉLUQ parmi les chercheurs les plus cités au monde
Quelques-uns de ses travaux #
Avec Geoff Langdale, John Keiser, Paul Dreik et d’autres, il est l’auteur de la bibliothèque JSON la plus rapide au monde : simdjson. C’est la première bibliothèque capable de parser plusieurs gigaoctets de JSON par seconde. Elle est utilisée par de nombreux systèmes importants tels que Meta Velox, le runtime Node.js, ClickHouse, WatermelonDB, Apache Doris, Milvus, StarRocks. En 2024, l’article On-demand JSON: A better way to parse documents? a été l’article le plus lu des cinq dernières années dans la revue Software: Practice and Experience.
Avec Yagiz Nizipli et d’autres, il est l’auteur d’Ada URL parser, le parseur d’URL de Node.js et des Cloudflare Workers. Nous pensons qu’il s’agit du parseur conforme WHATWG le plus rapide au monde. Leur article de 2024 dans Software: Practice and Experience est le quatrième article le plus lu des cinq dernières années selon l’éditeur (Wiley).
Avec Robert Clausecker, Wojciech Muła, John Keiser, Paul Dreik et d’autres, il a écrit la bibliothèque simdutf, la bibliothèque la plus rapide au monde pour le transcodage Unicode et le base64. Elle accélère deux des principaux runtimes JavaScript (Node.js et Bun). Elle fait également partie de WebKit, le moteur derrière le navigateur Safari, et de Chromium, le moteur derrière Google Chrome et Microsoft Edge. L’algorithme de validation UTF-8 qu’il a conçu avec Keiser est également intégré à l’interpréteur PHP et à de nombreuses bibliothèques standard.
Il a joué un rôle déterminant dans la conception de l’algorithme de parsing de nombres le plus rapide au monde. Avec des collaborateurs, il a écrit la bibliothèque fast_float qui fait partie de GCC. Elle est également présente dans WebKit, le moteur de Safari, le navigateur web d’Apple. Elle a aussi été adoptée par Chromium, le moteur derrière Google Chrome et Microsoft Edge. Cette approche de parsing des nombres est intégrée aux bibliothèques runtime de Go, C# et Rust. Elle est utilisée dans MySQL. Pour la première fois, elle a permis de parser des nombres à plus d’un gigaoctet par seconde.
Il a conçu le format Roaring bitmap comme format d’index bitmap efficace. Ce format est devenu un standard. Il est utilisé par Apache Lucene et les systèmes dérivés tels que Solr et Elasticsearch, Apache Druid, etc. Le moteur SQL de YouTube, Google Procella, utilise les Roaring bitmaps pour l’indexation. Avec des ingénieurs comme Richard Startin, il a contribué de manière déterminante à de nombreuses implémentations, notamment RoaringBitmap (Java), roaring (Go) et CRoaring (C et C++).


