Programming/기타

HiBench 5.0 간략 설명

라우드니스 2016. 1. 24. 16:04

mvn package는 했다고 가정.


* 데이터 사이즈 관련 설정


HiBench/conf/10-data-scale-profile.conf 를 확인하면 데이터 생성하거나 실행할때 쓰이는 요소들을 알 수 있다. (예: 데이터 제작시 사용되는 데이터 크기 관련 숫자들)


* 여러 가지 클래스들


가령 나의 경우 Join 에 데이터 제작시 사용되는 HiBench.DataGen이 어디있는지 찾고싶었는데, 이 경우 


HiBench/src/autogen/target/autogen-5.0-SNAPSHOT.jar 에 포함돼 있었다.


따라서 내가 직접 Join에 사용되는 데이터를 만들고 싶다면


hadoop jar autogen-5.0-SNAPSHOT-jar-with-dependencies.jar HiBench.DataGen -t hive -b /hive -n /hive/input -m 11 -r 1 -p 12000000 -v 100000000 -o sequence  


라고 명령어를 넣으면 된다. ( -t는 DataGen 소스코드에서 분기로 사용됨, b 는 base 폴더, -n 은 실제 input 폴더, -p 와 -v의 수치는 데이터 사이즈 관련 설정의 huge 설정)



반응형