'2015/12 글 목록

2015/12 4

HBase Coprocessor의 예제를 응용한 Distributed Count와 Apache Phoenix의 Count문 비교

HBase의 공식 레퍼런스에 있는 Coprocessor 예제 를 더 단순화 시켜서 Count를 만들어 봤다. Github 주소 테스트로, 약 2GB, Row 당 크기는 약 20byte, 총 1억개를 가지고 있는 테이블을 각각 Apache Phoenix를 통해서, 혹은 내 스스로 나누어서 넣고 count를 실행해봤다. 실험에 사용한 노드가 10대라서 phoenix 테이블이나 hbase에 바로 넣은것이나 둘 다 region 구간은 동일하고 나누고 하나의 region당 1천개 씩 넣었다. hbase heap에 cache 되는것도 고려하여 총 10번씩 실행시켜 평균을 냈는데 phoenix는 약 6.51초, coprocessor는 11.43초가 나왔다. 아무래도 Apache phoenix에서는 단순히 endpoi..

Programming/Java 2015.12.21

Maven 3.x 의존성과 함께 컴파일하기

HBase를 사용하는 테스트용 프로그램을 만들었는데 classpath 잡아주기가 너무 귀찮았다. 그래서 그냥 의존성 파일을 하나로 묶어서 compile을 하려고 했다. 그냥 다음과 같은 xml을 pom.xml의 scope 안쪽에 넣어주면 된다. maven-assembly-plugin package single jar-with-dependencies

Programming/Java 2015.12.18

Spark CSV 의 의존성

Spark-csv 모듈은 Spark에서 CSV를 RDD화 시키는데 사용되는 모듈로, SparkSQL에서는 sql을 통해 csv를 바로 dataframe화 시키는것도 가능하다. Spark-CSV를 이용할때, 모든 의존성 파일들을 spark 코드에 넣어준게 아니라면 spark-csv의 jar파일 뿐만 아니라 반드시 spark-submit에 의존성 jar파일로 commons-csv-1.1.jar 파일을 포함시켜줘야 한다. sbt나 maven과 같은 빌드 도구들의 사용이 보편화됨에 따라 개별 의존성에 대한 정보의 공시는 더더욱 없어지는것 같다...

Programming/Java 2015.12.16

Spark on HBase 관련 코드들

https://github.com/tkyoo/SparkOnHBase Apache Spark를 통해서 HBase에 접근했던 코드들 * Spark에서 Apache Phoenix를 통해 HBase에 접근하는 코드 (Pheonix 폴더) * Spark에서 자체 Hadoop API만을 이용하여 HBase에 접근하는 코드 (Spark 폴더) * Cloudera의 SparkOnHBase 가 정식으로 추가돼 HBase 2.0 때 코드에 들어가 있는 hbase-spark 모듈의 HBaseContext 객체를 이용하여 HBase 접근. (Spark/HBaseContext 폴더). Spark / SparkSQL 사용

Programming/Java 2015.12.10

부산대학교 정보컴퓨터공학부 지식공유동아리 untoC 2기

Virtual Box, hibench, spark, Hadoop, Programming, CMU, C, Maven, C++, Virtualization, Kubuntu, Hbase, Android, MAPREDUCE, Java, Linux, cloud computing, 프로그래밍, Data Communication, OpenGL,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

세상밖으로...

2015/12 4

티스토리툴바