
apache-spark
apache-spark设计专业人士,学生和爱好者的问答
文章 22浏览 24在 spark scala 的数据框列中过滤 NULL 值
FilterNULLvalueindataframecolumnofsparkscala我有一个数据框(df),其中包含以下内容:+---------+--------------------+|col1|col2|+---------+--------------------+|colvalue1|NULL||colvalue2|col2value...|+------------+------…hive 上下文无法识别 pyspark 中的临时表 – AnalysisException: ‘Table not found’
hivecontextdoesn'trecognizetemptableinpyspark-AnalysisException:'Tablenotfound'我正在使用以本地模式运行的pyspark(1.6.1)。我有一个来自csv文件的数据框,我需要添加dense_rank()列。我知道sqlContext不支持窗口功能,但HiveContext支持。hiveContext=HiveContex…dask 从 spark 读取镶木地板文件
daskreadparquetfilefromspark对于从spark写入的parquet文件(没有任何分区),它的目录如下所示:%lsfoo.parquetpart-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquetpart-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.p…如何在 Spark Streaming 中仅在新批次上重新训练模型(不采用以前的训练数据集)?
Howtore-trainmodelsonnewbatchesonly(withouttakingtheprevioustrainingdataset)inSparkStreaming?我正在尝试编写我的第一个推荐模型(Spark2.0.2),我想知道是否有可能,在模型详细说明我的所有rdd的初始训练之后,只为未来的训练使用一个增量。让我通过一个例子来解释:第一批执行第一次训练,所有rdd(200…found: org.apache.spark.sql.Dataset[(Double, Double)] 需要: org.apache.spark.rdd.RDD[(Double, Double)]
found:org.apache.spark.sql.Dataset[(Double,Double)]required:org.apache.spark.rdd.RDD[(Double,Double)]我收到以下错误found:org.apache.spark.sql.Dataset[(Double,Double)]required:org.apache.spark.rdd.RDD[(Double…Spark Row to JSON
SparkRowtoJSON我想从Sparkv.1.6(使用scala)数据帧创建JSON。我知道有做df.toJSON.的简单解决方案但是,我的问题看起来有点不同。例如,考虑具有以下列的数据框:|A|B|C1|C2|C3|-------------------------------------------|1|test|ab|22|TRUE||2|mytest|gh|17|FALSE||A|B…Extracting value using Window and Partition
ExtractingvalueusingWindowandPartition我在pyspark中有一个数据框id|value1011102120303031id|value1110212031df=sqlContext.createDataFrame([[1,0],[1,1],[1,0],[2,1],[2,0],[3,0],[3,0],[3,1]],['id','Value'])df.show()…Spark Parquet Loader:减少列出数据框文件所涉及的作业数量
SparkParquetLoader:Reducenumberofjobsinvolvedinlistingadataframe'sfiles我正在通过将parquet数据加载到数据框中spark.read.parquet('hdfs:///path/goes/here/...')//Short-circuitsparallellistingwhenseriallistingislikelytob…如何优化Spark以将大量数据写入S3
HowtooptimizeSparkforwritinglargeamountsofdatatoS3我在EMR上使用ApacheSpark进行了大量ETL。我对获得良好性能所需的大部分调整都相当满意,但我有一项工作似乎无法弄清楚。基本上,我使用了大约1TB的parquet数据-分布在S3中的数万个文件中-并添加了几列并将其写出,并按数据的日期属性之一进行分区-再次,parquet格式在S3中。我是…java.io.IOException: 无法在 Hadoop 二进制文件中找到可执行的 null\\bin\\winutils.exe。在 Windows 7 上触发 Eclipse
java.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.sparkEclipseonwindows7我无法在Windows7上安装的ScalaIDE(Mavenspark项目)中运行简单的spark作业已添加Spark核心依赖项。valconf=newSparkConf().setAp…Pyspark 中的增量数据加载和查询,无需重新启动 Spark JOB
IncrementalDataloadingandQueryinginPysparkwithoutrestartingSparkJOB大家好,我想做增量数据查询。df=spark.read.csv('csvFile',header=True)#1000Rowsdf.persist()#Assumeittakes5mindf.registerTempTable('data_table')#orcre…存储Spark的dataframe的执行计划
StoreexecutionplanofSpark′sdataframe我目前正在尝试将Spark的数据帧的执行计划存储到HDFS中(通过dataframe.explain(true)命令)我发现的问题是,当我使用explain(true)命令时,我可以通过命令行和日志查看输出,但是如果我创建一个文件(比如说.txt)与数据框的说明文件的内容将显示为空。我认为该问题与Spark的配置有关,但我无法…Spark:在数组类型列上连接两个数据框
Spark:Jointwodataframesonanarraytypecolumn我有一个简单的用例我有两个数据框df1和df2,我正在寻找一种有效的方式来加入它们?df1:包含我的主要数据框(数十亿条记录)+--------+-----------+--------------+|doc_id|doc_name|doc_type_id|+--------+-----------+-------…如何在 Spark SQL 中启用 Postgis 查询
HowtoenablePostgisQueryinSparkSQL我有一个带有Postgis扩展的PostgreSQL数据库,所以我可以进行如下查询:SELECT*FROMpoi_tableWHERE(ST_DistanceSphere(the_geom,ST_GeomFromText('POINT(121.3779631.208297)',4326))<6000)spark.sql("se…Can\\’t import lzo files in pyspark
Can'timportlzofilesinpyspark我有一个以lzo格式压缩的csv文件,我想将其导入pyspark数据帧。如果文件没有压缩,我会这样做:importpysparkaspsspark=ps.sql.SparkSession.builder.master("local[2]").getOrCreate()data=spark.read.csv(fp,schema=SCHEMA,s…