Spark DataFrame学习
1. 文件的读取
1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)
1.2 和数据库的交互 spark.sql(“”)
2.函数使用
2.1 printSchema() - 显示表结构
2.2 df.select(col) - 查找某一列的值
2.3 df.show([int n]) - 显示[某几行的]的值
2.4 df.filter(condition) - 过滤出符合条件的行
2.5 df.groupby(col).count()
df.groupby(col).agg(col,func.min(),func.max(),func.sum()) - 聚合函数
2.6 spark.createDataFrame([(),(),(),()…,()],(col1,col2,col3,…,coln))
2.7 自定义udf函数
|
|
df.groupby(col).apply(f).show()