Professeur

À propos du professeur #

Daniel Lemire est professeur d’informatique à l’Université TÉLUQ. Il a aussi été un chercheur au conseil national de recherche du Canada et un entrepreneur. Il est l’auteur de plus de 80 publications arbitrées, incluant plus de 55 articles parus dans des revues internationales. Il a écrit plusieurs livres. Il détient des subventions de recherche depuis plus de 20 ans. Il est éditeur de la revue Software : Practice and Experience, fondée en 1971. Il participe aux comités scientifiques de plusieurs conférences prestigieuses en informatique (par exemple, ACM CIKM, WWW, ACM WSDM, ACM SIGIR, ACM RecSys). Ses logiciels sont utilisés par de grandes sociétés comme Google et Facebook. En 2020 et 2021, Daniel Lemire était co-président du comité informatique du CRSNG. Il a reçu le prix d’excellence de l’Université du Québec 2020 en recherche et création pour une réalisation en recherche (tous secteurs confondus) concernant ses travaux sur l’accélération du traitement des fichiers JSON. Il est parmi les 2% de scientifiques les plus cités au monde selon le classement de l’Université Stanford.

À lire : Les géants du numérique raffolent des algorithmes de ce prof québécois (Journal de Montréal).

Quelques-uns des travaux de Daniel Lemire #

Avec Geoff Langdale, John Keiser, Paul Dreik et d’autres, il est l’auteur de la bibliothèque JSON la plus rapide au monde : simdjson. C’est la première bibliothèque capable de parser plusieurs gigaoctets de JSON par seconde. Elle est utilisée par de nombreux systèmes importants tels que Meta Velox, le runtime Node.js, ClickHouse, WatermelonDB, Apache Doris, Milvus, StarRocks. En 2024, l’article On-demand JSON: A better way to parse documents? a été l’article le plus lu des cinq dernières années dans la revue Software: Practice and Experience.

Avec Yagiz Nizipli et d’autres, il est l’auteur d’Ada URL parser, le parseur d’URL de Node.js et des Cloudflare Workers. Nous pensons qu’il s’agit du parseur conforme WHATWG le plus rapide au monde. Leur article de 2024 dans Software: Practice and Experience est le quatrième article le plus lu des cinq dernières années selon l’éditeur (Wiley). Avec Robert Clausecker, Wojciech Muła, John Keiser, Paul Dreik et d’autres, il a écrit la bibliothèque simdutf, la bibliothèque la plus rapide au monde pour le transcodage Unicode et le base64. Elle accélère deux des principaux runtimes JavaScript (Node.js et Bun). Elle fait également partie de WebKit, le moteur derrière le navigateur Safari, et de Chromium, le moteur derrière Google Chrome et Microsoft Edge. L’algorithme de validation UTF-8 qu’il a conçu avec Keiser est également intégré à l’interpréteur PHP et à de nombreuses bibliothèques standard.

Il a joué un rôle déterminant dans la conception de l’algorithme de parsing de nombres le plus rapide au monde. Avec des collaborateurs, il a écrit la bibliothèque fast_float qui fait partie de GCC. Elle est également présente dans WebKit, le moteur de Safari, le navigateur web d’Apple. Elle a aussi été adoptée par Chromium, le moteur derrière Google Chrome et Microsoft Edge. Cette approche de parsing des nombres est intégrée aux bibliothèques runtime de Go, C# et Rust. Elle est utilisée dans MySQL. Pour la première fois, elle a permis de parser des nombres à plus d’un gigaoctet par seconde.

Il a conçu le format Roaring bitmap comme format d’index bitmap efficace. Ce format est devenu un standard. Il est utilisé par Apache Lucene et les systèmes dérivés tels que Solr et Elasticsearch, Apache Druid, etc. Le moteur SQL de YouTube, Google Procella, utilise les Roaring bitmaps pour l’indexation. Avec des ingénieurs comme Richard Startin, il a contribué de manière déterminante à de nombreuses implémentations, notamment RoaringBitmap (Java), roaring (Go) et CRoaring (C et C++).