apache-spark

apache-spark设计专业人士，学生和爱好者的问答

文章 22浏览 24

在 spark scala 的数据框列中过滤 NULL 值
FilterNULLvalueindataframecolumnofsparkscala我有一个数据框(df)，其中包含以下内容：+---------+--------------------+|col1|col2|+---------+--------------------+|colvalue1|NULL||colvalue2|col2value...|+------------+------…
2025-04-161
hive 上下文无法识别 pyspark 中的临时表 – AnalysisException: ‘Table not found’
hivecontextdoesn'trecognizetemptableinpyspark-AnalysisException:'Tablenotfound'我正在使用以本地模式运行的pyspark(1.6.1)。我有一个来自csv文件的数据框，我需要添加dense_rank()列。我知道sqlContext不支持窗口功能，但HiveContext支持。hiveContext=HiveContex…
2025-02-101
dask 从 spark 读取镶木地板文件
daskreadparquetfilefromspark对于从spark写入的parquet文件(没有任何分区)，它的目录如下所示：%lsfoo.parquetpart-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquetpart-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.p…
2024-11-171
如何在 Spark Streaming 中仅在新批次上重新训练模型(不采用以前的训练数据集)？
Howtore-trainmodelsonnewbatchesonly(withouttakingtheprevioustrainingdataset)inSparkStreaming?我正在尝试编写我的第一个推荐模型(Spark2.0.2)，我想知道是否有可能，在模型详细说明我的所有rdd的初始训练之后，只为未来的训练使用一个增量。让我通过一个例子来解释：第一批执行第一次训练，所有rdd(200…
2024-11-161
found: org.apache.spark.sql.Dataset[(Double, Double)] 需要: org.apache.spark.rdd.RDD[(Double, Double)]
found:org.apache.spark.sql.Dataset[(Double,Double)]required:org.apache.spark.rdd.RDD[(Double,Double)]我收到以下错误found:org.apache.spark.sql.Dataset[(Double,Double)]required:org.apache.spark.rdd.RDD[(Double…
2024-11-161
Spark Row to JSON
SparkRowtoJSON我想从Sparkv.1.6(使用scala)数据帧创建JSON。我知道有做df.toJSON.的简单解决方案但是，我的问题看起来有点不同。例如，考虑具有以下列的数据框：|A|B|C1|C2|C3|-------------------------------------------|1|test|ab|22|TRUE||2|mytest|gh|17|FALSE||A|B…
2024-11-161
Extracting value using Window and Partition
ExtractingvalueusingWindowandPartition我在pyspark中有一个数据框id|value1011102120303031id|value1110212031df=sqlContext.createDataFrame([[1,0],[1,1],[1,0],[2,1],[2,0],[3,0],[3,0],[3,1]],['id','Value'])df.show()…
2024-11-141
Spark Parquet Loader:减少列出数据框文件所涉及的作业数量
SparkParquetLoader:Reducenumberofjobsinvolvedinlistingadataframe'sfiles我正在通过将parquet数据加载到数据框中spark.read.parquet('hdfs:///path/goes/here/...')//Short-circuitsparallellistingwhenseriallistingislikelytob…
2024-11-031
如何优化Spark以将大量数据写入S3
HowtooptimizeSparkforwritinglargeamountsofdatatoS3我在EMR上使用ApacheSpark进行了大量ETL。我对获得良好性能所需的大部分调整都相当满意，但我有一项工作似乎无法弄清楚。基本上，我使用了大约1TB的parquet数据-分布在S3中的数万个文件中-并添加了几列并将其写出，并按数据的日期属性之一进行分区-再次，parquet格式在S3中。我是…
2024-10-291
java.io.IOException: 无法在 Hadoop 二进制文件中找到可执行的 null\\bin\\winutils.exe。在 Windows 7 上触发 Eclipse
java.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.sparkEclipseonwindows7我无法在Windows7上安装的ScalaIDE(Mavenspark项目)中运行简单的spark作业已添加Spark核心依赖项。valconf=newSparkConf().setAp…
2024-10-271
Pyspark 中的增量数据加载和查询，无需重新启动 Spark JOB
IncrementalDataloadingandQueryinginPysparkwithoutrestartingSparkJOB大家好，我想做增量数据查询。df=spark.read.csv('csvFile',header=True)#1000Rowsdf.persist()#Assumeittakes5mindf.registerTempTable('data_table')#orcre…
2024-10-261
存储Spark的dataframe的执行计划
StoreexecutionplanofSpark′sdataframe我目前正在尝试将Spark的数据帧的执行计划存储到HDFS中(通过dataframe.explain(true)命令)我发现的问题是，当我使用explain(true)命令时，我可以通过命令行和日志查看输出，但是如果我创建一个文件(比如说.txt)与数据框的说明文件的内容将显示为空。我认为该问题与Spark的配置有关，但我无法…
2024-10-261
Spark：在数组类型列上连接两个数据框
Spark:Jointwodataframesonanarraytypecolumn我有一个简单的用例我有两个数据框df1和df2，我正在寻找一种有效的方式来加入它们？df1：包含我的主要数据框(数十亿条记录)+--------+-----------+--------------+|doc_id|doc_name|doc_type_id|+--------+-----------+-------…
2024-10-231
如何在 Spark SQL 中启用 Postgis 查询
HowtoenablePostgisQueryinSparkSQL我有一个带有Postgis扩展的PostgreSQL数据库，所以我可以进行如下查询：SELECT*FROMpoi_tableWHERE(ST_DistanceSphere(the_geom,ST_GeomFromText('POINT(121.3779631.208297)',4326))<6000)spark.sql("se…
2024-10-211
Can\\’t import lzo files in pyspark
Can'timportlzofilesinpyspark我有一个以lzo格式压缩的csv文件，我想将其导入pyspark数据帧。如果文件没有压缩，我会这样做：importpysparkaspsspark=ps.sql.SparkSession.builder.master("local[2]").getOrCreate()data=spark.read.csv(fp,schema=SCHEMA,s…
2024-10-201