ApacheProject

ArchitectureDesign
- CAP、BASE
- UML
- proactor
- reactor

BusinessSystem
- 电商系统
  - Untitled
- 统一消息推送
  - 短信消息模板

CloudNative
- Harbor
  - Untitled
- Jenkins
  - Untitled
- Kubernetes
  - backup
    - Untitled
  - 集群搭建
- README

CloudPlatform
- OSS

CloudServicePlatform
- ALi
- AWS
- README

ComputerBasic
- Untitled
- 操作系统
  - KB、KiB
  - README
  - UNIX-likeOS
    - README
    - UID、EUID
    - Ubuntu应用场景
    - export
    - linux时间同步
    - make、cmake
    - ps
    - sed
    - shell
    - systemd
    - 磁盘扩容
    - 输入输出重定向
  - WindowsOS
    - PowerShell
    - Windows环境变量
    - 实用工具
  - x86、x64
  - 多线程模型
- 计算机网络
  - README

ComputerLanguage
- C、C++
  - README
- Go
  - 1.语言基础
    - 1.概述
    - 10.函数
    - 11.异常
    - 12.元编程
    - 13.源文件间结构组织
    - 14.面向对象编程
    - 2.历史
    - 3.1代码执行模式
    - 3.环境
    - 4.标识符
    - 5.常量与变量
    - 6.数据类型
    - 7.运算符
    - 8.流程控制
    - 9.注释
  - 2.功能基础
    - 1.编解码
    - 10.并发编程
    - 11.网络编程
    - 2.加解密
    - 3.IO
    - 4.数学
    - 5.时间
    - 6.系统
    - 7.基础数据结构与算法
    - 9.统一日志
  - 3.运行时
    - 内存管理
  - 4.主要规范
    - Untitled
    - 格式化
  - README
- JavaScript
  - Untitled
- Java
  - 2.功能基础
    - 10.并发编程
- Python
  - 1.语言基础
    - 1.概述
    - 10.注释
    - 11.1.内置函数
    - 11.函数
    - 12.异常
    - 13.元编程
    - 14.源文件间结构组织
    - 15.1.内置类
    - 15.面向对象编程
    - 16.函数式编程
    - 17.流式编程
    - 18.面向切面编程
    - 2.历史
    - 3.1.代码执行模式
    - 3.2.__main__
    - 3.环境
    - 4.关键字和标识符
    - 5.常量与变量
    - 6.数据类型
    - 7.运算符
    - 8.表达式
    - 9.流程控制
    - 上下文
  - 2.功能基础
    - 1.编解码
    - 10.并发编程
    - 11.单元测试
    - 12.Debug
    - 13.网络编程
    - 14.国际化和本地化
    - 15.文档化
    - 16.跨语言调用
    - 2.加解密
    - 3.IO
    - 4.数学
    - 5.时间
    - 6.系统
    - 7.基础数据结构与算法
    - 8.图形用户界面
    - 9.统一日志
  - 3.解释器
    - 如何初步了解解释器原理
    - 见CPython3.7源码剖析
    - 解释器钩子
  - 4.三方组件
    - 0.常用功能库一览
    - 1.分词、词云
    - 2.matplotlib
    - 3.pycurl
    - 4.celery
    - 5.pandas
    - 6.文档
    - 7.pyan
    - 8.tqdm
    - README
    - pydantic
  - 4.主要规范
    - 1.概述
    - PEP 249 - Python 数据库 API 规范 v2.0
  - README
- README
- 编程语言理论
  - 卫语句
  - 语句
  - 语言类型
- 计算机语言中的闭包

CyberSecurity
- Untitled
- 安全问题及解决方案
  - CSRF
  - SQL Injection
- 证书

Data
- DataWare
  - Hadoop
    - Hadoop配置
    - Untitled 1
    - Untitled 2
    - Untitled 3
    - cluster
  - README
  - Spark
    - EMR
    - README
    - Spark
    - Untitled 2
    - Untitled 3
    - Untitled
    - Untitled 1
- DatabaseSystem
  - ClickHouse
    - README
    - 安装配置
  - ElasticStack
    - Beat
      - FileBeat
    - Elasticsearch
      - 1.简介
      - 2.安装配置
      - 3.查询语言
      - 4.文本分析组件
      - 5.集成
      - 6.client
      - 7.Lucene
      - 8.Mapping
      - README
    - Kibana
      - KQL
      - 安装配置
    - Logstash
      - 安装配置
      - 简介
    - README
    - 应用场景
      - ELFK日志集群
  - Kafka
    - README
    - client
    - 安装配置
    - 简介
  - Memcached
    - Memcached
  - MongoDB
    - MongoDB集群
    - MongoDB集群1
    - README
    - Untitled
    - mongoengine
    - pymongo
    - ql
    - 命令
    - 安装
    - 数据库操作语言
    - 数据库管理工具
    - 数据库集群
    - 数据库驱动
    - 架构
    - 简介
  - MySQL
    - 1.MySQL 简介
    - 2.MySQL 安装配置
    - 3.MySQL 程序
    - 4.MySQL SQL
    - 5.MySQL 数据库存储引擎
    - 6.MySQL Server 管理
    - 7.MySQL 集群
    - 8.业务场景实践2
    - 8.业务场景实践
    - README
    - client
      - Flask-SQLAlchemy
      - PyMySQL
      - SQLAlchemy
      - TortoiseORM
      - Untitled
  - PostgreSQL
    - README
  - README
  - RabbitMQ
    - 0.Erlang、OTP
    - 1.基础
    - 10.Configuration
    - 11.部署指南
    - 12.集群
    - 13.Manage
    - 14.客户端
    - 15.Subject
    - 16.TroubleShooting
    - 17.Monitor
    - 18.Cluster
    - 19.应用场景
    - 2.VirtualHost
    - 20.插件
    - 21.TLS支持
    - 22.性能测试
    - 23.RabbitMQ rabbitmq.conf配置文件详解
    - 24.实践技巧
    - 3.User
    - 4.Message
    - 5.Exchange
    - 6.1.Classic Queue
    - 6.2.Quorum Queue
    - 6.3.Stream Queue
    - 6.Queue
    - 7.1.Channel
    - 7.Connection
    - 8.Producer
    - 9.Consumer
  - Redis
    - 1.简介
    - 10.最佳实践
    - 11.Lua脚本
    - 11.client
      - Jedis
      - Lettuce
      - python-redis-lock
      - redispy
    - 12.业务实战
      - 1.OpenResty
      - 2.多级缓存方案
      - 3.其他
      - 4.布隆过滤器
    - 2.安装配置
    - 3.数据类型
    - 4.底层数据结构
    - 5.命令
    - 6.内存管理
    - 7.集群
    - 8.网络模型
    - 8.部署
    - 9.通信协议
  - TiDB
    - README
  - Tool
    - DBeaver
    - PerconaToolkit
  - ZooKeeper
    - 命令
    - 安装配置
    - 应用场景
    - 数据模型
    - 权限控制
    - 简介
    - 集群
  - 数据库总论
- README
- 数据存算场景
- 数据存算总论
- 文件格式
  - BSON
  - CSV
  - JSON
  - Markdown
  - TSV
  - XML
  - YAML
  - ini
  - properties

Design
- 哈希一致解决方案
- 架构演变
- 缓存综合解决方案

MachineLearning
- NLP
  - tfidf

Mantaince
- Jenkins
- Untitled

Question

README

Solution
- README
- 全栈解决方案
- 微服务解决方案

SystemDesign
- IM系统
- README
- 二维码系统
- 会员系统
- 分布式链路追踪服务
- 在线教育系统
- 大流量门户站内信
- 扫码登录功能
- 电商系统
- 电子邮件系统
- 短链系统
- 秒杀系统
- 视频系统

Test
- JMeter
- Untitled
- 压测工具
- 概述
- 流量拷贝

Tool
- Anki
- Clash
- Cron表达式
- Electron
- Git
- GoogleChrome
- Graphviz
- He3
- Hexo
- JetBrainTool
- LaTex
- License
- PDManer
- Poedit
- Postman
- SSH
- Slidev
- StylePix
- VMware
- VSCode
- VisualStudioCode
- WinMerge
- Windows工具
- cURL
- labelImg
- 代码生成工具
- 内网穿透
- 开发专用缩略词
- 正则表达式
- 测试工具
- 画图
- 视频播放器
- 语义化版本
- 贝锐

WebDevelopment
- Container
  - Docker
  - VMware
- Pandect
  - Consul
  - README
  - RPC
  - Ribbon负载均衡+OpenFeign远程HTTP调用
  - Web请求链路中的缓存
  - 分布式事务
  - 声明式事务还是编程式事务
  - 接口开发通用套路
  - 架构
  - 网站攻击
  - 跨域
  - 速记命名规范
  - 配置中心，服务自动更新配置
  - 锁
  - 限流算法
- PythonWeb
  - Bottle
  - Django
  - FastAPI
  - Flask
  - README
  - Tornado
- Untitled
- WebServer
  - CGI
  - LVS
  - gunicorn
  - uWSGI
  - uvicron
- Web开发共识
- 分布式唯一ID
- 微服务生态
- 接口设计
- 数据分页方式
- 文件操作
- 缓存方案

httpshelp

Untitled 2

予早 2026-04-30 23:53:27

Categories： Tags：

 import pyspark
 
 spark = pyspark.sql.SparkSession.builder.appName("test").config(
     'spark.sql.parquet.binaryAsString', 'true').getOrCreate()
 
 # 2.77GB
 df1 = spark.read.format("jdbc").options(
     user="dsv2", password="djiijx.lTpeA", driver='com.mysql.cj.jdbc.Driver',
     url=f"jdbc:mysql://192.168.4.254:3306/data_service_v2", query="SELECT * FROM companyxxx").load()
 
 # df1.collect()
 # java.sql.SQLException: GC overhead limit exceeded
 
 df2 = spark.createDataFrame([(1,), (2,), (3,), (4,), (5,)], ["id"])
 df2.createOrReplaceTempView("df2")
 
 df2.show()
 
 df3 = df1.join(df2, "id", how="inner")
 
 # df3.show()
 # java.sql.SQLException: GC overhead limit exceeded
 
 df4 = df1.filter("id in (select id from df2)")
 
 df4.show()
 # java.sql.SQLException: GC overhead limit exceeded
 
 # df1.filter("id in (select id from df2)") 不会优化

root 用户生成ssh的key就是用于root用户的登陆

所以要注意用户

可能某一个集群之间使用hadoop可以通信，但是root是不允许的

列类型转换

 from pyspark.sql.types import DecimalType, StringType
 
 output_df = ip_df \
   .withColumn("col_value", ip_df["col_value"].cast(DecimalType())) \
   .withColumn("id", ip_df["id"].cast(StringType()))

es+spark 读取es中的自定义格式日期时报异常

 问题描述：spark读取指定索引/类型的数据，其中有自定义格式的日期数据，读取该日期时报异常，日期定义格式："start_time" : {
 "type" : "date",
 "format" : "yyyy-MM-dd HH:mm:ss"
 },
 异常信息：
 16/06/12 15:54:17 INFO DAGScheduler: Job 0 failed: saveAsTextFile at BrowersDataJob.java:84, took 6.235458 s
 Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 6, 172.16.7.82): org.elasticsearch.hadoop.rest.EsHadoopParsingException: Cannot parse value [2016-05-12 05:49:07] for field [start_time]
 at org.elasticsearch.hadoop.serialization.ScrollReader.read(ScrollReader.java:701)
 at org.elasticsearch.hadoop.serialization.ScrollReader.map(ScrollReader.java:794)
 at org.elasticsearch.hadoop.serialization.ScrollReader.read(ScrollReader.java:692)