Spark-csv 모듈은 Spark에서 CSV를 RDD화 시키는데 사용되는 모듈로, SparkSQL에서는 sql을 통해 csv를 바로 dataframe화 시키는것도 가능하다.
Spark-CSV를 이용할때, 모든 의존성 파일들을 spark 코드에 넣어준게 아니라면 spark-csv의 jar파일 뿐만 아니라 반드시 spark-submit에 의존성 jar파일로 commons-csv-1.1.jar 파일을 포함시켜줘야 한다.
sbt나 maven과 같은 빌드 도구들의 사용이 보편화됨에 따라 개별 의존성에 대한 정보의 공시는 더더욱 없어지는것 같다...
반응형
'Programming > Java' 카테고리의 다른 글
HBase Coprocessor의 예제를 응용한 Distributed Count와 Apache Phoenix의 Count문 비교 (0) | 2015.12.21 |
---|---|
Maven 3.x 의존성과 함께 컴파일하기 (0) | 2015.12.18 |
Spark on HBase 관련 코드들 (0) | 2015.12.10 |
SparkSQL on HBase - hbase.column.mapping에 사용가능한 타입 (0) | 2015.11.25 |
SparkSQL on HBase 사용방법 (0) | 2015.11.23 |