Bigstep Data Lake

Primul Data-Lake-as-a-Service de nivel Enterprise

Data Lake-ul reprezintă un repository de stocare la nivel de petabytes, dar și un motor de procesare pentru proiecte de big data.

  • Depozit activ de date, fără limite de scalabilitate
  • Date complet cryptate, statice sau în tranzit
  • Arhitectură concepută pentru a susține throughput la nivel de terabiți
  • Perfect compatibil cu HDFS și integrabil nativ cu baze de date NoSQL

Toate datele spun o poveste

Bigstep DataLake poate fi integrat cu aplicațiile și sistemele existente, asigură securitate de nivel enterprise, cel mai înalt nivel de throughput, resursele necesare pentru procesare masivă de date și capacitatea de a rula simultan un număr nelimitat de procese.


Caracteristici cheie

icon

Integrare nativă cu HDFS

Aplicațiile native Hadoop (Spark, Kafka, Drill, Flink, NoSQL) pot accesa data lake-ul prin intermediul protocolului binar al HDFS.

icon

Replicare la nivel de fișier

Replicarea este configurată până la nivel de fișier, astfel încât vei avea control deplin asupra securității datelor tale critice.

icon

Soluții enterprise de securitate

Bigstep DataLake utilizează proceduri de criptare a datelor statice și în tranzit și autentificare pe bază de Kerberos pentru a asigura un nivel înalt de securitate.

icon

Suport pentru fișiere, indiferent de dimensiune

Nu există nicio restricție referitoare la volumul datelor sau dimensiunea fișierelor ce vor fi stocate în data lake.

icon

Throughput ridicat

Grație rețelei ce permite un throughput de până la 40Gbps pe un singur link, datele ajung instantaneu la aplicațiile mission-critical.

icon

Disponibil în regiuni multiple

Poți accesa datele din orice regiune acoperită de Bigstep (Chicago USA, Reading UK sau București). Acestea pot fi replicate pentru a asigura disponibilitate maximă.


Dacă există date, există soluții

Spune adio soluțiilor de stocare on-premises care sunt dificil de scalat si gestionat. Indiferent de volumul sau tipul datelor care trebuie stocate, procesate și analizate, Bigstep DataLake reprezintă soluția ideală pentru orice proiect de big data.

icon

Mai mult decât data warehouse-urile de talie enterprise

Bigstep DataLake poate prelua și corela datele existente cu informații din diverse surse si sisteme. Este compatibil cu Oracle, Teradata, IBM, HP, Microsoft, dar și cu tool-uri de business intelligence precum Qlikview, Microstrategy, Jaspersoft și Tableau.

icon

Colectarea și analiza stream-urilor de date, indiferent de dimensiune

Bigstep DataLake poate stoca stream-uri de date complexe provenite din mediul online, social media, senzori sau alte aplicații și device-uri, spre deosebire de marea majoritate a arhitecturilor on-premises. Bigstep DataLake poate fi implementat în câteva minute. Acesta poate prelua stream-uri de date externe, furniza instant fișierele externe motoarelor de procesare și întoarce rezultatele în sistemele existente.

icon

Data science și machine learning pe baza seturilor de date

Bigstep DataLake a fost conceput pentru a gestiona volume impresionante de date, dar și pentru a permite echipelor de data scientists să descopere corelații imposibil de identificat în alte condiții. RStudio, Matlab, IPython Notebook, Spark Notebook sau PyCharm pot fi conectate direct la Bigstep DataLake. Specialiștii în data science acum pot lucra într-un mediu scalabil și performant.

icon

Arhitecturi distribuite de microservicii pentru aplicații web

Cum poți optimiza aplicațiile web sau mobile pentru a crește numărul de useri, fără ca aceasta să implice un buget foarte mare? Containerele reprezintă o modalitate facilă de a distribui resursele necesare în funcție de task-ul executat. Bigstep DataLake a fost conceput pentru a asigura nivelul de flexibilitate necesar arhitecturilor de microservicii și integrarea cu Mesos, Kubernetes și Docker.

icon

Procesare de date și ETL, indiferent de sursă și aplicație

Echipele de data scientists pot folosi SQL, Java, Phyton, Scala, RDBMS, Hadoop, Spark, NoSQL pentru a analiza datele și a obține insight-uri în doar câteva minute. Beneficiind de datele potrivite și aplicațiile potrivite la momentul potrivit, nu vei mai fi forțat să te rezumi la o singură tehnologie.

icon

Stocare de date istorice și backup pentru seturi de date mari

Bigstep DataLake reprezintă soluția ideală pentru a stoca o replică activă a seturilor de date, sau pentru a asigura disponibilitatea acestora prin intermediul protocoalelor HTTP la nivelul mai multor regiuni sau sisteme.


Securitate

icon

Controlul accesului la date

Fișierele au alocate drepturi de acces, replicând astfel în Bigstep Metal Cloud structura ierarhică a utilizatorilor.

icon

Criptarea datelor

Pentru a preveni accesul neautorizat la date, Bigstep DataLake utilizează tehnologia Kerberos pentru a cripta atât datele aflate în tranzit, cât si datele statice.

icon

Integrare cu serviciile de autentificare

Bigstep Metal Identity permit integrarea facilă a serviciilor de active directory (LDAP), sau a oricăror servicii de autentificare externe.


Primul Data-Lake-as-a-service din lume

Bigstep DataLake este primul serviciu de acest tip construit și dezvoltat în cloud. Acesta a fost conceput pentru a stoca fișiere de dimensiuni mari, la nivel de terrabytes și oferă suport atât pentru date structurate, cât și pentru date nestructurate, indiferent de sursa acestora. Fiecare fișier este alcătuit din blocuri multiple, fiecare dintre acestea putând fi descărcate în același timp din diferite surse. Beneficiind de un throughput de 40 Gbps per nod, Bigstep DataLake asigură o arhitectură multi-terabit.

Data StreamData Processing& FilteringBIGSTEP DATA LAKE(HDFS)In-MemoryEnginesiPython,R, MATLABNoSQLSQL

Bigstep DataLake utilizează schema de replicare distribuită Hadoop. Blocurile de fișiere sunt distribuite în mod egal la nivelul nodurilor de date. Replicile vor fi întotdeauna distribuite pe mașini sau discuri diferite. Grație acestui sistem de replicare, erorile ce pot apărea la nivelul discurilor nu vor afecta datele stocate. Spre deosebire de soluțiile tradiționale de tip RAID, utilizatorii vor putea descărca simultan secțiuni diferite ale aceluiași document, de pe diferite noduri, beneficiind de performanță și throughput ridicate.

Integrarea facilă cu infrastructura

Bigstep Metal Cloud permite integrarea deplină a infrastructurii cu Data Lake-ul, prin intermediul următoarelor protocoale:

  • HDFS – un protocol binar pentru aplicațiile native Hadoop, precum Spark, Kafka, Drill, Flink sau baze de date NoSQL.
  • WebHDFS – un protocol HTTP ce pot fi folosite de multiple aplicații web
  • FUSE – un sistem de fișiere ce poate fi folosit de către orice aplicație

Migrare facilă și rapidă a datelor

Throughput-ul masiv și layer-ul de infrastructură de mare performanță facilitează transferul datelor acolo unde este nevoie de ele, când este nevoie de ele. Volumele mari de date ce par a fi blocate în soluții de stocare cloud-based, precum Amazon S3, pot fi ușor migrate prin HTTP către Bigstep DataLake, astfel beneficiind de spațiu nelimitat de stocare și performanță bare-metal.