Belajar Data Engineering | Apache Airflow #1: Pengenalan Airflow

ervinismu
3 min readFeb 28, 2021

--

Photo by Franki Chamaki on Unsplash

Pada tulisan ini kita akan belajar pada bidang Data Engineering, lebih spesific lagi untuk penggunaan tool yang bernama Airflow. Yang mana tool ini nantinya akan memudahkan kita saat melakukkan pekerjaan-pekerjaan pada bidang Data Engineering.

Apa itu Data Engineering ?

Dewasa ini, sering muncul istilah Data Scientist, Data Scientist ini berfokus untuk menemukan atau mendapatkan insight dari dataset (kumpulan data). sebagai contoh : “Data Belanja Online Warga Indonesia Tahun 2021

Namun, bagaimana dataset tersebut dihasilkan atau dikumpulkan? 🤔

Untuk tugas ini, Data Engineering akan sangat berperan penting dalam hal pengumpulan atau pemrosesan dataset tersebut sebelum nantinya bisa digunakan oleh Data Scientist, pengumpulan dataset ini dilakukkan dengan memperhatikan berbagai aspek, meliputi : reliable, maintainable, security dan lain sebagainya.

Data Engineering Workflow 👷

Workflow adalah serangkaian langkah-langkah atau alur kerja yang digunakan untuk menyelesaikan tugas Data Engineering tertentu.

Contohnya sebagai berikut :

by ervinismu

Pada contoh diatas ini ada banyak langkah yang harus dilakukkan, variasi dan tingkat kompleksitasnya akan berbeda-beda tergantung dengan masalah Data Engineering yang dihadapi.

Airflow

https://airflow.apache.org

Airflow adalah platform untuk creation, scheduling, dan monitoring workflow secara ter-program.

Ketika workflow didefinisikan sebagai kode program, workflow menjadi lebih mudah untuk dilakukkan maintenance, versioning, collaboration dll.

Beberapa penjelasan tambahan mengenai Airflow :

  • Workflow ditulis menggunakan bahasa python.
  • Pada Airflow, workflow di implementasikan sebagai DAG (Directed Acylic Graphs).
  • Airflow dapat diakses melalui code, command-line atau web interface.

Penjelasan singkat mengenai DAG

by ervinismu

DAG adalah singkatan dari Directed Acylic Graphs. Di Airflow, DAG mewakili sekumpulan tugas yang menyusun workflow, ini terdiri dari tugas dan ketergantungan antar tugas. DAG dibuat dengan disertai berbagai informasi detail, seperti : name, start_date, author, dan lain-lain.

DAG akan kita bahas lebih detail pada tulisan selanjutnya 😃

Tools lain

Beberapa tools workflow lain yang mirip seperti Airflow, diantaranya :

Install Airflow

Bisa mengikuti panduan dibawah ini untuk penjelasan yang lebih detail tentang instalasi Airflow pada komputer.

Kesimpulan

Demikian sedikit pengenalan tentang Airflow, Airflow adalah salah satu tools yang bisa memudahkan kita dalam proses data engineering. Untuk tulisan selanjutnya akan dibahas lebih detail untuk DAG dan cara penggunaannya pada Airflow.

--

--

ervinismu
ervinismu

Written by ervinismu

full time writer, part time software engineer, long life learner https://ruby.social/@ervinismu

No responses yet