Using Rust for efficient data processing and analysis

Data format

  • arrow: Native Rust implementation of Apache Arrow and Apache Parquet

Data Processing

  • polars: xử lý Dataframe với hiệu năng cao, khá tương đồng và có thể thay thế Pandas.
  • serde: Serializing và Deserializing nhiều loại data (JSON, CSV, ...) thành các kiểu dữ liệu trong Rust.
  • rayon: Framework xử lý dữ liệu parallel.
  • datafusion: query execution framework, sử dụng Apache Arrow.
  • ballista: Distributed SQL Query Engine, sử dụng Apache Arrow

Data Ingestion

  • reqwest: Rust HTTP client.
  • vector.dev: ultra-fast tool for building observability pipelines.

References

  • https://blog.duyet.net/2023/01/data-engineering-rust-tools.html
  • https://arewedatayet.com