Belajar Data Engineering | Apache Airflow #1: Pengenalan Airflow
Pada tulisan ini kita akan belajar pada bidang Data Engineering, lebih spesific lagi untuk penggunaan tool yang bernama Airflow. Yang mana tool ini nantinya akan memudahkan kita saat melakukkan pekerjaan-pekerjaan pada bidang Data Engineering.
Apa itu Data Engineering ?
Dewasa ini, sering muncul istilah Data Scientist, Data Scientist ini berfokus untuk menemukan atau mendapatkan insight dari dataset (kumpulan data). sebagai contoh : “Data Belanja Online Warga Indonesia Tahun 2021”
Namun, bagaimana dataset tersebut dihasilkan atau dikumpulkan? 🤔
Untuk tugas ini, Data Engineering akan sangat berperan penting dalam hal pengumpulan atau pemrosesan dataset tersebut sebelum nantinya bisa digunakan oleh Data Scientist, pengumpulan dataset ini dilakukkan dengan memperhatikan berbagai aspek, meliputi : reliable, maintainable, security dan lain sebagainya.
Data Engineering Workflow 👷
Workflow adalah serangkaian langkah-langkah atau alur kerja yang digunakan untuk menyelesaikan tugas Data Engineering tertentu.
Contohnya sebagai berikut :
Pada contoh diatas ini ada banyak langkah yang harus dilakukkan, variasi dan tingkat kompleksitasnya akan berbeda-beda tergantung dengan masalah Data Engineering yang dihadapi.
Airflow
Airflow adalah platform untuk creation, scheduling, dan monitoring workflow secara ter-program.
Ketika workflow didefinisikan sebagai kode program, workflow menjadi lebih mudah untuk dilakukkan maintenance, versioning, collaboration dll.
Beberapa penjelasan tambahan mengenai Airflow :
- Workflow ditulis menggunakan bahasa python.
- Pada Airflow, workflow di implementasikan sebagai DAG (Directed Acylic Graphs).
- Airflow dapat diakses melalui code, command-line atau web interface.
Penjelasan singkat mengenai DAG
DAG adalah singkatan dari Directed Acylic Graphs. Di Airflow, DAG mewakili sekumpulan tugas yang menyusun workflow, ini terdiri dari tugas dan ketergantungan antar tugas. DAG dibuat dengan disertai berbagai informasi detail, seperti : name, start_date, author, dan lain-lain.
DAG akan kita bahas lebih detail pada tulisan selanjutnya 😃
Tools lain
Beberapa tools workflow lain yang mirip seperti Airflow, diantaranya :
Install Airflow
Bisa mengikuti panduan dibawah ini untuk penjelasan yang lebih detail tentang instalasi Airflow pada komputer.
Kesimpulan
Demikian sedikit pengenalan tentang Airflow, Airflow adalah salah satu tools yang bisa memudahkan kita dalam proses data engineering. Untuk tulisan selanjutnya akan dibahas lebih detail untuk DAG dan cara penggunaannya pada Airflow.