반응형

2015/12 4

HBase Coprocessor의 예제를 응용한 Distributed Count와 Apache Phoenix의 Count문 비교

HBase의 공식 레퍼런스에 있는 Coprocessor 예제 를 더 단순화 시켜서 Count를 만들어 봤다. Github 주소 테스트로, 약 2GB, Row 당 크기는 약 20byte, 총 1억개를 가지고 있는 테이블을 각각 Apache Phoenix를 통해서, 혹은 내 스스로 나누어서 넣고 count를 실행해봤다. 실험에 사용한 노드가 10대라서 phoenix 테이블이나 hbase에 바로 넣은것이나 둘 다 region 구간은 동일하고 나누고 하나의 region당 1천개 씩 넣었다. hbase heap에 cache 되는것도 고려하여 총 10번씩 실행시켜 평균을 냈는데 phoenix는 약 6.51초, coprocessor는 11.43초가 나왔다. 아무래도 Apache phoenix에서는 단순히 endpoi..

Programming/Java 2015.12.21

Spark CSV 의 의존성

Spark-csv 모듈은 Spark에서 CSV를 RDD화 시키는데 사용되는 모듈로, SparkSQL에서는 sql을 통해 csv를 바로 dataframe화 시키는것도 가능하다. Spark-CSV를 이용할때, 모든 의존성 파일들을 spark 코드에 넣어준게 아니라면 spark-csv의 jar파일 뿐만 아니라 반드시 spark-submit에 의존성 jar파일로 commons-csv-1.1.jar 파일을 포함시켜줘야 한다. sbt나 maven과 같은 빌드 도구들의 사용이 보편화됨에 따라 개별 의존성에 대한 정보의 공시는 더더욱 없어지는것 같다...

Programming/Java 2015.12.16

Spark on HBase 관련 코드들

https://github.com/tkyoo/SparkOnHBase Apache Spark를 통해서 HBase에 접근했던 코드들 * Spark에서 Apache Phoenix를 통해 HBase에 접근하는 코드 (Pheonix 폴더) * Spark에서 자체 Hadoop API만을 이용하여 HBase에 접근하는 코드 (Spark 폴더) * Cloudera의 SparkOnHBase 가 정식으로 추가돼 HBase 2.0 때 코드에 들어가 있는 hbase-spark 모듈의 HBaseContext 객체를 이용하여 HBase 접근. (Spark/HBaseContext 폴더). Spark / SparkSQL 사용

Programming/Java 2015.12.10
반응형