Tanpa server di re:Invent: Ke mana sebaiknya Amazon Redshift pergi?
Cloud

Tanpa server di re:Invent: Ke mana sebaiknya Amazon Redshift pergi?

Sorotan utama dari re:Invent minggu lalu adalah ekstensi komputasi tanpa server ke sejumlah layanan analitik AWS, termasuk Amazon EMR, Kinesis Data Streams, MSK (Layanan Terkelola untuk Kafka), dan Redshift. Untuk analitik cloud, AWS bukan yang pertama menawarkan opsi tanpa server, karena Google Cloud BigQuery dan Azure Synapse Analytics telah lama menawarkan opsi tanpa server (sebaliknya, Snowflake masih dalam pratinjau).

Tanpa server bukan satu-satunya fitur baru yang diumumkan minggu lalu. AWS juga mengumumkan pratinjau tampilan terwujud otomatis yang memperlakukan pembuatan tampilan ini seperti pengoptimal kueri berbasis biaya: secara otomatis menghasilkan tampilan berdasarkan hot spot data. Meskipun demikian, tanpa server menjadi pusat perhatian.

Sementara pengumuman tanpa server AWS dapat dilihat sebagai mengikuti Jones, mengenai Amazon Redshift, itu adalah bagian dari narasi yang lebih besar dari layanan data warehousing tidak hanya mengejar, tetapi mendapatkan posisi untuk berpotensi melewati para pesaingnya.

Singkatnya, Amazon Redshift telah lama dikenal lebih sebagai pasar daripada pemimpin teknologi.

Ketika AWS meluncurkan Redshift pada tahun 2013, itu adalah salah satu layanan pergudangan data cloud pertama. Dimulai dengan teknologi yang diperoleh dari ParAccel, AWS mendapat untung tetapi juga membayar harga karena menjadi yang pertama di pasar. Entri awalnya, bersama dengan portofolio layanan analitik AWS lainnya, memungkinkan Redshift untuk mengukir daftar klien besar dengan lebih dari puluhan ribu pelanggan saat ini.

AWS menggabungkan teknologi ParAccel yang diperoleh. Namun sejak awal, ia mengikuti arsitektur pergudangan data konvensional dengan penyimpanan yang terpasang secara lokal. Sebaliknya, Google Cloud BigQuery, diluncurkan kembali pada 2010, memelopori gudang data cloud-native. Meskipun demikian, peluncuran Snowflake pada tahun 2014 yang benar-benar menempatkan gudang data awan elastis di peta.

Untuk pengumuman tanpa server minggu lalu, pengembangan utama adalah peluncuran instans RA3 pada tahun 2019. Mereka memberikan elastisitas yang telah lama dicari dengan pemisahan komputasi dan penyimpanan dan membuka jalan untuk tanpa server. Ternyata, RA3 adalah transformasi yang juga memungkinkan Redshift melakukan lebih banyak hal. Awal tahun ini, AWS merilis Advanced Query Accelerator (AQUA) untuk Amazon Redshift yang kami tandai pada saat itu sebagai “pergeseran generasi” yang memanfaatkan elastisitas instans RA3. Ini ditujukan untuk beban kerja untuk data “near-line” yang disimpan dari jarak jauh di Amazon Redshift Managed Storage, menyimpan data panas di SSD saat menggunakan Nitro hypervisor dan FPGA untuk mempercepat pemrosesan data yang lebih dingin di S3.

Kebetulan, dalam posting kami musim semi lalu, kami menempatkan serverless di daftar keinginan kami untuk apa yang ingin kami lihat selanjutnya. Sekali di bulan biru, kita kadang-kadang melakukannya dengan benar.

Tapi ada lagi. Karena instans RA3 mengumpulkan banyak data di S3, hal itu membuka jalan untuk berbagi data, yang awalnya dirilis kembali pada musim semi untuk pelanggan dengan beberapa akun AWS. Di re:Invent minggu lalu, kemampuan itu diperluas ke berbagai wilayah. Sekali lagi, AWS bukan yang pertama memasarkan. Misalnya, Snowflake telah mempromosikan berbagai bentuk berbagi data sejak mulai membicarakan Data Sharehouse pada tahun 2017 (mereka tidak lagi menggunakan istilah itu). AWS memang meluncurkan pasar data (disebut Amazon Data Exchange) beberapa tahun yang lalu, tetapi baru saja memperluasnya ke Redshift.

Mari kita membuat beberapa penafian. Pertama-tama, jangan bingung berbagi data dengan kueri gabungan. Redshift dapat melakukan kueri data jarak jauh di database RDS dan Aurora untuk MySQL dan PostgreSQL, dan melalui Redshift Spectrum, ke EMR dan S3. Tapi itu sangat mirip dengan apa yang sudah ditawarkan Google dengan BigQuery. Kedua, jangan percaya bahwa AWS mengabaikan instans yang disediakan – itu akan terus menawarkannya untuk Redshift juga karena ada pelanggan yang lebih memilih penagihan tingkat. Google akhirnya mengetahui hal itu ketika kemudian memperkenalkan slot tarif tetap untuk BigQuery.

Dengan arsitektur cloud-native dan dukungan tanpa server, AWS memiliki beberapa peluang untuk mencetak beberapa yang pertama. Dengan arsitektur tanpa server cloud-native, AWS dapat memindahkan lebih banyak analitik dan pemrosesan AI dalam database.

Tetapi pembelajaran mesin dalam basis data telah menjadi taruhan meja untuk gudang data cloud. AWS sudah melakukannya dengan Redshift ML, di mana Anda dapat menggunakan perintah SQL untuk memicu pengembangan model di SageMaker, lalu menghadirkan model dalam database sebagai bentuk fungsi yang ditentukan pengguna (UDF) untuk menjalankan pelatihan dan/atau beban kerja inferensi. Pada gilirannya, Google juga menyediakan ML dalam database untuk BigQuery, tetapi terbatas pada model tertentu yang dikurasi; sementara Microsoft mengizinkan menjalankan model ML dalam kumpulan Azure Synapse Spark. Dan dengan Snowpark, Anda dapat menggunakan bahasa non-SQL untuk menekan pemrosesan, seperti model ML, sebagai UDF langsung ke database Snowflake.

Daftar keinginan kami adalah membawa Spark langsung ke Redshift. Hari ini, Anda harus menjalankan cluster EMR terpisah untuk menjalankan Spark (tapi setidaknya sekarang, itu juga bisa dipicu tanpa server). Tentu saja, tidak ada yang mencegah AWS memecah Spark sebagai layanan tanpa server yang terpisah, seperti yang dilakukan Google Cloud baru-baru ini. Namun hari ini, Azure Synapse Analytics memungkinkan Anda menjalankan versi (subset) dari Spark dalam database yang dikurasi tanpa mengaktifkan cluster terpisah; kami ingin melihat AWS menindaklanjutinya.

Tapi jangan berhenti di situ. Tanpa server juga memberikan kesempatan untuk menjalankan beban kerja dengan alat pihak ketiga, terutama dengan pelaporan dan visualisasi BI. Redshift saat ini memiliki integrasi dengan QuickSight-nya sendiri dan dengan alat populer seperti Tableau, tetapi Anda harus memindahkan data dan memprosesnya dalam kelompok terpisah.

Jadi mari kita potong untuk mengejar. Kami akan senang melihat AWS menambahkan mode “Redshift-asli” untuk pihak ketiga yang bersedia menjalankan kemampuan seperti ELT atau visualisasi sebagai layanan mikro kemas yang berjalan langsung di dalam node komputasi Redshift RA3, atau node generasi berikutnya apa pun yang keluar di tahun-tahun mendatang. Sebagai perbandingan, Snowflake menyediakan API umum bagi pihak ketiga untuk mengakses data Snowflake, tetapi data diproses dalam kelompok terpisah. Bayangkan menjalankan layanan ELT dari Informatica atau Fivetran sebagai layanan mikro di node komputasi Redshift. AWS kemudian dapat mempromosikan Redshift sebagai gudang data termurah dan tercepat di cloud.

Posted By : hasil hk