pyspark记录

Spark DataFrame学习

1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)

1.2 和数据库的交互 spark.sql(“”)

2.1 printSchema() - 显示表结构
2.2 df.select(col) - 查找某一列的值
2.3 df.show([int n]) - 显示[某几行的]的值
2.4 df.filter(condition) - 过滤出符合条件的行
2.5 df.groupby(col).count()

df.groupby(col).agg(col,func.min(),func.max(),func.sum()) - 聚合函数
2.6 spark.createDataFrame([(),(),(),()…,()],(col1,col2,col3,…,coln))
2.7 自定义udf函数

1
2
3

@pandas_udf("col1 type,col2 type,...,coln type",PandasUDFType.GROUPD_MAP)
def f(pdf):
	pass

df.groupby(col).apply(f).show()