Duncan's Blog

pyspark记录

Spark DataFrame学习

1. 文件的读取

1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)

1.2 和数据库的交互 spark.sql(“”)

2.函数使用

  • 2.1 printSchema() - 显示表结构

  • 2.2 df.select(col) - 查找某一列的值

  • 2.3 df.show([int n]) - 显示[某几行的]的值

  • 2.4 df.filter(condition) - 过滤出符合条件的行

  • 2.5 df.groupby(col).count()

    df.groupby(col).agg(col,func.min(),func.max(),func.sum()) - 聚合函数

  • 2.6 spark.createDataFrame([(),(),(),()…,()],(col1,col2,col3,…,coln))

  • 2.7 自定义udf函数

1
2
3
@pandas_udf("col1 type,col2 type,...,coln type",PandasUDFType.GROUPD_MAP)
def f(pdf):
pass

df.groupby(col).apply(f).show()

分享