メインコンテンツまでスキップ

Spark connector

Spark コネクタ

通知

ユーザーガイド:

JAR ファイルの命名形式: starrocks-spark-connector-${spark_version}_${scala_version}-${connector_version}.jar

JAR ファイルの取得方法:

  • Maven Central Repository から Spark コネクタ JAR ファイルを直接ダウンロードする方法。
  • Maven プロジェクトの pom.xml ファイルに Spark コネクタを依存関係として追加し、ダウンロードする方法。詳細な手順については、ユーザーガイドを参照してください。
  • ソースコードをコンパイルして Spark コネクタ JAR ファイルを作成する方法。詳細な手順については、ユーザーガイドを参照してください。

バージョン要件:

Spark コネクタ

Spark

StarRocks

Java

Scala

1.1.1

3.2, 3.3, または 3.4

2.5 以降

8

2.12

1.1.0

3.2, 3.3, または 3.4

2.5 以降

8

2.12

リリースノート

1.1

1.1.1

このリリースでは、StarRocks へのデータのロードに関するいくつかの機能と改善が含まれています。

注意

Spark コネクタをこのバージョンにアップグレードする際の変更点に注意してください。詳細については、Spark コネクタのアップグレードを参照してください。

機能

  • Sink が再試行をサポートします。#61
  • BITMAP 列や HLL 列へのデータのロードをサポートします。#67
  • ARRAY 型のデータのロードをサポートします。#74
  • バッファリングされた行の数に基づいてフラッシュをサポートします。#78

改善

  • 不要な依存関係を削除し、Spark コネクタの JAR ファイルを軽量化しました。#55 #57
  • fastjson を jackson に置き換えました。#58
  • 不足していた Apache ライセンスヘッダーを追加しました。#60
  • Spark コネクタの JAR ファイルに MySQL JDBC ドライバーをパッケージングしないようにしました。#63
  • タイムゾーンパラメータを設定できるようにし、Spark Java8 API の日時と互換性があるようにしました。#64
  • CPU 負荷を削減するために、行文字列コンバータを最適化しました。#68
  • starrocks.fe.http.url パラメータに http スキームを追加できるようにしました。#71
  • DataBricks 13.1 で実行するために、インターフェース BatchWrite#useCommitCoordinator を実装しました。#79
  • エラーログで特権とパラメーターのチェックヒントを追加しました。#81

バグ修正

  • CSV 関連パラメーター column_seperatorrow_delimiter のエスケープ文字を解析するように修正しました。#85

ドキュメント

  • ドキュメントをリファクタリングしました。#66
  • BITMAP 列や HLL 列へのデータのロードの例を追加しました。#70
  • Python で記述された Spark アプリケーションの例を追加しました。#72
  • ARRAY 型データのロードの例を追加しました。#75
  • プライマリキーのテーブルでの部分更新と条件付き更新の例を追加しました。#80

1.1.0

機能

  • StarRocks へのデータのロードをサポートします。

1.0

機能

  • StarRocks からのデータのアンロードをサポートします。