23 мая 2025 года Apache выпустила новую версию Apache Spark 4.0. Подробности и полный разбор релиза от эксперта - Алексея Скахина, инженера данных в «ДАР» (ГК «КОРУС Консалтинг»), читайте в статье.
Релиз Apache Spark 4 приносит значительные улучшения в модуль Spark SQL, повышая эффективность и удобство обработки данных. Среди нововведений — расширенные возможности процедурного языка, улучшенная поддержка ANSI SQL, а также новый синтаксис Pipe SQL. Однако встроенный процедурный диалект SQL пока обладает ограниченным набором функций, что не позволяет ему полностью заменить PySpark.
Со стороны PySpark усилена интеграция с Pandas и Arrow, а также добавлена поддержка типов данных Variant и XML.
Реальный потенциал этих и других изменений в Spark 4 станет очевиден с появлением первых проектов на этой версии.
Прочитать полную версию статьи и поделиться комментариями можно здесь: Хабр
Остались вопросы? Пишите на data@korusconsulting.ru
И подписывайтесь на наш телеграм-канал про аналитику и данные Analytics
Now