16 May
16May

Bagaimana perusahaan keuangan menggabungkan ekosistem Hadoop ke dalam proyek analitik data besar mereka bergantung pada arsitektur, kasus penggunaan, dan ekonomi. Dengan gudang data yang sudah mapan dan vendor baru yang menggabungkan antarmuka Structure Query Language (SQL) untuk menjembatani perusahaan ke Hadoop, jangan gudangkan gudang data Anda dulu.

Hadoop adalah platform open source untuk mengembangkan dan menyebarkan aplikasi intensif data terdistribusi yang dapat mengakomodasi volume, kecepatan, dan variasi data yang terus meningkat yang biasa disebut sebagai data besar. Platform pengembangan dikelola oleh Apache Software Foundation dan didistribusikan secara bebas di bawah lisensi sumber terbuka.

Hadoop berharga untuk tiga tujuan utama: sistem penskalaan, efisiensi biaya, dan fleksibilitas. Pada intinya adalah Hadoop Distributed File System, yang berfungsi sebagai lapisan penyimpanan, dan kerangka kerja perangkat lunak MapReduce, yang merupakan lapisan komputasi. Banyak proyek aplikasi lain telah dikembangkan untuk memperluas fungsionalitas dan membuat Hadoop lebih mudah digunakan untuk perusahaan. Kami akan melihat lebih dalam tentang Hadoop di posting yang akan datang.

Perbedaan terbesar antara gudang data perusahaan (EDW) dan Hadoop adalah bahwa Hadoop beroperasi tanpa skema. Ini berarti tidak seperti EDW yang membutuhkan data untuk diformat setelah konsumsi, data dapat ditambahkan di Hadoop dalam bentuk mentah dan dipanggil kembali dengan cepat untuk analisis.

Pindah ke arsitektur terdistribusi

Karena sebagian evolusi Hadoop, penyimpanan data terpusat dari EDW tradisional secara bertahap memberi jalan ke arsitektur yang lebih terdistribusi. Ini untuk meningkatkan skala, efisiensi biaya, dan fleksibilitas penanganan data tidak terstruktur yang disediakan oleh Hadoop. Ekonomi infrastruktur Hadoop sangat menarik: diukur berdasarkan biaya per terabyte, beban kerja yang sebanding dapat diterapkan pada sekelompok server komoditas di Hadoop dengan biaya sekitar sepersepuluh dari biaya penyimpanan bermerek. Minimal, ini membuat Hadoop ideal untuk pengarsipan dengan memungkinkan perusahaan untuk memindahkan data yang jarang digunakan dari penyimpanan mahal tingkat pertama ke tingkat sekunder dan tersier.

Evolusi ke arsitektur modular terdistribusi ini mewakili perubahan strategis yang telah dipaksakan pada vendor EDW. Gudang data tidak dibangun untuk menangani kompleksitas beban kerja data besar. Kelincahan yang diberikan Hadoop memungkinkan TI perusahaan untuk mengalihkan fokus dari beban pengelolaan beban kerja ke membantu pengguna bisnis memperoleh lebih banyak nilai dari data mereka.
Vendor EDW utama, termasuk Teradata, Oracle, dan IBM telah memperkenalkan peralatan untuk menghubungkan database dan perangkat lunak analitik mereka ke data yang disimpan di Hadoop. Mereka juga bermitra dengan distributor Hadoop terkemuka Cloudera dan Hortonworks untuk memfasilitasi penerapan aplikasi.

Kunci konektor SQL, integrasi Hadoop, adopsi
Peralatan Hadoop baru dirancang untuk beroperasi bersama EDW. Yang penting, setiap vendor menawarkan beberapa jenis bahasa kueri berbasis SQL di atas sistem file terdistribusi Hadoop untuk membuat data yang disimpan di cluster Hadoop lebih mudah diakses oleh pengguna bisnis. Tujuan mereka adalah untuk mendorong analisis semua data - baik terstruktur atau multi-terstruktur - dengan kemudahan dan keakraban SQL.

Untuk EDW tradisional, administrator basis data, pengembang SQL, dan pakar ekstrak, transformasi, dan muat (ETL) cukup umum. Namun, dengan kurangnya keterampilan TI dalam teknologi data besar, khususnya ekosistem Hadoop, arsitektur ini berfungsi sebagai batu loncatan yang baik untuk membuat kueri dan membangun aplikasi bisnis di Hadoop menjadi lebih mudah. Ini juga memungkinkan perusahaan untuk sepenuhnya mendepresiasi aset EDW mereka dan dengan anggun bermigrasi untuk menggabungkan skala dan manfaat biaya Hadoop untuk proyek analitik data besar.

Vendor EDW memfasilitasi ini dengan membangun akselerator fungsi analitis ke dalam peralatan mereka untuk mempercepat kemampuan tertentu. Konektor SQL juga memperluas peralatan Hadoop ke platform intelijen bisnis back-end yang sudah dikenal. Dengan arsitektur modular, data tidak terstruktur yang disimpan di Hadoop dapat diproses dan kemudian dikirim ke EDW untuk dianalisis.

Vendor EDW tradisional memiliki lebih banyak pekerjaan yang harus dilakukan. Mereka harus mengerjakan ulang database relasional yang tetap penting untuk menganalisis operasi bisnis. Ini termasuk memanfaatkan teknologi dalam memori untuk membuat database lebih elastis dan fleksibel untuk menganalisis data besar. Dengan membongkar fungsi non-analitis seperti mengubah, membersihkan, dan menyiapkan data ke klaster Hadoop, organisasi dapat memanfaatkan gudang data untuk melakukan yang terbaik: pemrosesan dan analitik berkinerja tinggi pada data tingkat satu. Sewa Cold Storage

I BUILT MY SITE FOR FREE USING