본문 바로가기
SingleStoreDB/웨비나

Webinar: ML/AI 운영 시대의 데이터 레이크(Data Lake)의 발전

by 에이플랫폼 [Team SingleStore Korea] 2019. 8. 19.

Data Science Central의 Bill Vorhies와 SingleStore의 Rick Negrin은 최근 데이터 레이크(Data Lake)에 대한 Webinar와 인공지능(AI) 및 머신러닝(ML) 운영 시대의 Hadoop 사용에 대한 Webinar를 제공했습니다. 이 블로그 게시물에서는 Webinar의 미리보기로 Webinar의 주요 요점을 요약합니다. 언제라도 녹화된 Webinar를 볼 수 있습니다.


기업은 최상의 의사 결정을 내리기 위해 데이터에 유연하게 액세스해야 합니다. 불행히도 오늘날 사용되는 시스템은 복잡성과 구조적으로 지연을 초래합니다. ANSI SQL을 지원하는 빠르고 확장 가능한 관계형 데이터베이스인 SingleStore는 데이터 처리 아키텍처를 단순화하고 의사 결정 속도를 높일 수 있습니다. SingleStore는 ML 및 AI에서 사용할 수 있는 최신의 정확한 데이터를 제공할 수도 있습니다.

Data Lake의 목표

기업은 우수한 고객 경험을 제공하기 위해 고객을 더 잘 이해하고 빠르고 정확한 결정을 내려야한다는 것을 알고 있습니다. 데이터 레이크는 이러한 요구에 대한 해답이 됩니다.

데이터 레이크의 목표는 대량의 데이터를 빠르게 가져와서 탐색 및 의사 결정에 사용할 수 있도록 하는 것이 었습니다. 이러한 요구사항으로 인해 대부분의 데이터 레이크 구현을 기반으로하는 기술인 Hadoop이 매우 빠르게 성장했습니다.

하둡과 빅 데이터는 SingleStore가 더 큰 역할을 할 시장으로 성장하고 있습니다.

 

불행히도, 대량의 데이터를 빠르게 가져 오는 이 목표의 첫 부분만 유지되었습니다. 하둡은 완벽하게 확장 가능하므로 업계 표준 하드웨어를 기반으로 많은 서버를 사용하여 대량의 데이터 수집(Ingest) 볼륨을 처리 할 수 ​​있습니다.

그러나 Hadoop과 함께 사용되는 데이터베이스는 SQL을 지원하는 관계형 데이터베이스가 아닌 NoSQL 데이터베이스입니다. 여기 SingleStore에는 NoSQL이 더 이상 대부분의 사례에 더 이상 필요하지 않은 이유에 대한 훌륭한 블로그 게시물이 있습니다. 간단히 말해서, NoSQL 데이터베이스는 SQL을 지원하는 관계형 데이터베이스에서 이전에는 부족했던 확장성을 제공하기 위해 만들어졌습니다. 그러나 대부분의 관계형 기능, 트랜잭션 기능 및 SQL 지원을 제거를 통해 확장성을 제공했습니다.

이로 인해 아키텍처와 개발자는 확장 불가능한 기존 데이터베이스와 확장 가능한 NoSQL 데이터베이스 중 하나를 선택해야 했습니다. 일반적으로 NewSQL 데이터베이스, 특히 SingleStore는 SQL을 지원하는 완전히 확장 가능한 관계형 데이터베이스를 제공하므로 NoSQL의 사용 사례는 대부분 사라집니다. (나머지 사용 사례의 대부분은 저렴한 비용으로 빠른 데이터 수집 혹은 아카이브로 장기 데이터 저장 형태의 두 그룹으로 나뉩니다.)

관계형 기능, 트랜잭션 및 SQL 지원이 없기 때문에 Hadoop에 수집된 데이터는 목표의 두 번째 부분을 충족하는 데 사용할 수 없으므로 탐색 및 의사 결정에 데이터를 사용할 수 있습니다. MongoDB의 실패한 구현에 대해 이 포스트에서 설명된 것처럼 애플리케이션에 추가하려는 많은 기능에 대해 사용하지 못할 수도 있습니다.

SingleStore 이전의 데이터 레이크 아키텍처

 

이 문제를 해결하기 위해 추가 데이터 처리 단계, 도구 및 새 데이터베이스가 개발되었습니다. Apache Spark 및 Hive와 같은 도구로 구성된 쿼리 계층은 Hadoop 데이터에 대한 액세스를 보장합니다. ETL (Extract, Transform and Load) 프로세스는 Hadoop의 NoSQL 데이터베이스, HDFS에 저장된 데이터를 가져 와서 데이터웨어 하우스, 데이터 마트(Mart) 및 운영 데이터 저장소 (ODSe)에 저장합니다. 이러한 추가 계층과 프로세스를 모두 사용하면 느리고 복잡하며 유지 관리 및 사용이 어려운 복잡한 인프라가 만들어집니다.

SingleStore가 차이를 만드는 방법

SingleStore는 ANSI 표준 SQL을 지원하는 빠르고 확장 가능한 완전 관계형 데이터베이스입니다. SingleStore는 두 가지 장점을 모두 제공합니다. Hadoop과 같은 산업 표준 서버에서 완벽하게 확장 가능하며 트랜잭션 지원 및 표준 SQL 인터페이스가있는 일관된 데이터베이스를 제공하는 관계형입니다.

SingleStore는 "Translytical"으로 설명됩니다. SingleStore 데이터베이스는 데이터 분석을 위한 트랜잭션과 쿼리를 동시에 처리할 수 ​​있습니다. ETL 단계가 없으며 정형화되지 않은 데이터를 정형화 데이터로 만들기위한 특수한 도구가 필요하지 않습니다. 귀하의 데이터는 결코 관계형 데이터베이스에 있지 않습니다. 항상 레코드에 저장되고, 일관성이 있으며, 친숙한 SQL 쿼리와 모든 SQL 호환 도구를 통해 항상 액세스할 수 있습니다.

SingleStore는 데이터 레이크의 모든 요소와 상호 작용합니다.

 

머신 러닝과 AI의 장점은 분명합니다. 한 번의 프로세스로 모든 기존 데이터와 새로운 데이터에 대해 머신러닝을 실행할 수 있습니다. AI 프로그램은 항상 조직의 모든 데이터에서 작동합니다. AI 프로그램은 최신 정보에 즉시 액세스할 수 있습니다. SingleStore의 완전한 구현의 이점은 운영상의 단순함과 ML / AI 호환성 모두에서 명확합니다.

SingleStore 기반 Data Lake 대안

전통적인 데이터 레이크 아키텍처가 있는 경우 SingleStore를 두 가지 방법으로 사용할 수 있습니다.

Hadoop과 SingleStore를 함께 운영: SingleStore는 기존 데이터 레이크의 쿼리 계층에 있는 도구를 대체하고 별도의 ETL 프로세스와 별도의 데이터웨어 하우스, 데이터 마트 및 운영 데이터 저장소가 필요하지 않으므로 훨씬 간단하고 빠른 시스템을 만들 수 있습니다. SingleStore는 더 작은 역할, 수집 또는 쿼리 가속기로 사용될 수 있으며 Hadoop은 장기 데이터 저장소로 유지됩니다.

Hadoop을 SingleStore로 대체: 간단히 SingleStore에 데이터를 직접 로드하고 SingleStore에서 직접 데이터를 쿼리 할 수 ​​있습니다. (SingleStore가 처음 Hadoop, 쿼리 툴, ETL 프로세스 및 데이터 웨어하우스, 데이터 마트 및 운영 데이터 저장소에 투자했을 때 사용 가능했다면 이렇게 했을 것 입니다.)

SingleStore는 데이터 레이크에서 Hadoop과 함께 사용할 수 있습니다

 

Webinar에는 식품 회사 인 Kellogg가 Hadoop과 Hive를 SingleStore로 대체 한 방법에 대한 사례 연구가 포함되어 있습니다. 훨씬 빠른 쿼리 성능, 몇 시간이 아닌 몇 분 만에 ETL과 같은 처리 및 SQL을 다시 사용할 수 있습니다.

Kellogg에서 SingleStore는 데이터 레이크 구현에서 Hadoop을 대체했습니다.

Q & A

참석자 질문과 Rick의 답변은 다음과 같습니다.

SingleStore는 텍스트, JSON, Avro 및 Parquet 형식 파일과 같은 반정형 데이터를 지원합니까? 예. 이제 기본적으로 CSV 파일, JSON 및 Avro를 가져올 수 있습니다. 향후 버전에는 기본 Parquet 지원이 포함됩니다.

쿼리에 Java, Python Spark ML 또는 sklearn 함수를 사용할 수 있습니까? MySQL 커넥터가있는 모든 기술은 SingleStore와 직접 연결하여 쿼리를 실행할 수 있습니다. 대부분의 언어에는 MySQL 커넥터 또는 ODBC 또는 JDBC 드라이버가 있으므로 Spark 또는 거의 모든 언어와 함께 작동합니다. 또한 SingleStore는 SingleStore와 함께 사용하고 모든 기능을 지원하도록 최적화된 Spark 및 Python과 같은 주요 기술을 위한 기본 커넥터를 개발했습니다.

SingleStore가 TensorFlow에서 사전 학습된 모델과 통합 될 수 있습니까? 예, 우리는 이것을 보여주었습니다. TensorFlow 라이브러리를 사용하여 데이터를 평가하고 모델을 만든 다음 SingleStore 파이프 라인을 사용하여 데이터를 수집 할 수 있습니다. TensorFlow / SingleStore 조합을 보여주는 비디오 (약 12 분 길이)가 있습니다.

SingleStore가 현재 지원하는 가장 큰 데이터 저장소는 무엇입니까? SingleStore가 지원하는 데이터 양에 대해서는 알려진 제한이 없습니다. 우리는 SingleStore에 수백 테라 바이트를 저장한 고객이 있습니다. 우리는 수백 명의 고객을 보유하고 있으며 곧 SingleStore의 단일 클러스터에 수천 개의 데이터베이스가 저장될 것입니다. 우리는 매우 큰 클러스터를 사용하고 주로 컬럼스토어를 사용하여 초당 1 천 5 백만 ~ 1 천만 번의 Insert 작업을 수행하고 있습니다.

SAS와 통합됩니까? 예, SAS의 SingleStore과 SAS가 함께 작동 한다는 공식 인증을 받았습니다. 방법은 간단합니다. 기존 MySQL 커넥터 만 사용하십시오.

November 12, 2018

Floyd Smith


https://www.singlestore.com/blog/webinar-data-lake-age-of-ml-ai/

Webinar: Data Lake Advances in the Age of Operational ML/AI - SingleStore Blog - MemSQL is Now SingleStore

Bill Vorhies of Data Science Central and Rick Negrin of SingleStore recently delivered a webinar on data lakes and the use of Hadoop in the age of operational machine learning (ML) and artificial intelligence (AI). In this blog post, we summarize some of the key points from the webinar, as a preview...

www.singlestore.com

​​

​※ www.a-platform.biz | info@a-platform.biz