본문 바로가기

스파크3

[사례 연구, Pinterest] Spark로 실시간 사용자 참여를 측정하는 방법 ​ Spark 스테이지 설정 MapReduce를 대체하기 위해 Spark가 본 궤도에 오르자, 기업은 뛰어난 분산 데이터 처리 능력을 활용하기 위해 오픈 소스 프레임워크로 몰려들고 있습니다. 트래픽이 많은 웹 사이트의 인프라와 데이터 파이프라인을 관리하는 IT 리더는, 특히, 실시간 데이터를 즉시 구조화하여 이벤트 데이터를 안정적으로 캡처하고, 분석가가 즉시 조회할 수 있는 형식으로 작성하는 데 이상적인 Spark Streaming을 운영하고 있습니다. ​ 세계 최초의 비주얼 북마크 도구인 Pinterest는 Spark를 이용하는 혁신적인 기업 중 하나입니다. Pinterest는 SingleStore의 인 메모리 데이터베이스와 Spark Streaming이 잘 들어 맞는 것을 발견했으며, 이러한 도구를 .. 2020. 2. 18.
ML을 위한 SingleStore와 Spark의 활용 샌프란시스코에서 열린 스파크 서밋(Spark Summit)에서 전 세계에 설치된 20만 개의 풍력 터빈에 200만 개 이상의 센서로부터 데이터를 처리하고 분석하는 PowerStream 쇼케이스 애플리케이션을 조명해 봤습니다. 당사의 PowerStream 엔지니어인 John Bowler와 함께 SingleStore와 Apache Spark 솔루션의 통합에 대한 그의 작업 내용에 대해 논의 했습니다. SingleStore와 Spark은 무슨 관계가 있나? ​ 그 핵심으로 SingleStore는 데이터베이스 엔진이고, Spark는 데이터를 변환하기 위해 코드를 작성하는 강력한 옵션입니다. Spark는 SingleStore에 데이터가 도착하기 전이나 후에 데이터에 대해 임의 연산을 실행하는 툴입니다. ​ Sin.. 2019. 8. 1.
SingleStore, Apache Spark 연동 개요 정확히 한 번 시맨틱(exactly-once semantics)을 가진 운영 유연성(operational flexibility)을 위해 Kafka, Spark, SingleStore Pipeline 및 Stored procedures를 사용하십시오. ​ ​ Spark Connector ​ SingleStore(MemSQL) Spark Connector는 Apache Spark 2.0 및 2.1과 통합되며 데이터베이스 테이블 및 Spark DataFrames에서 데이터로드 및 추출을 지원합니다. ​ GitHub 저장소 에서 Spark Connector를 다운로드 할 수 있습니다. Spark Connector에 대한 스칼라 참조 문서는 하단의 링크를 통해 볼 수 있습니다. (​https://docs.sing.. 2019. 7. 25.