#177 Stream Processing & Kafka: Die Basis moderner Datenpipelines mit Stefan Sprenger
Data Streaming und Stream Processing mit Apache Kafka und dem entsprechenden Ecosystem.
Eine ganze Menge Prozesse in der Softwareentwicklung bzw. für die Verarbeitung von Daten müssen nicht zur Laufzeit, sondern können asynchron oder dezentral bearbeitet werden. Begriffe wie Batch-Processing oder Message Queueing / Pub-Sub sind dafür geläufig. Es gibt aber einen dritten Player in diesem Spiel: Stream Processing. Da ist Apache Kafka das Flaggschiff, bzw. die verteilte Event Streaming Platform, die oft als erstes genannt wird.
Doch was ist denn eigentlich Stream Processing und wie unterscheidet es sich zu Batch Processing oder Message Queuing? Wie funktioniert Kafka und warum ist es so erfolgreich und performant? Was sind Broker, Topics, Partitions, Producer und Consumer? Was bedeutet Change Data Capture und was ist ein Sliding Window? Auf was muss man alles acht geben und was kann schief gehen, wenn man eine Nachricht schreiben und lesen möchte?
Die Antworten und noch viel mehr liefert unser Gast Stefan Sprenger.
Bonus: Wie man Stream Processing mit einem Frühstückstisch für 5-jährige beschreibt.
Unsere aktuellen Werbepartner findest du auf https://engineeringkiosk.dev/partners
Das schnelle Feedback zur Episode:
Feedback
- EngKiosk Community: https://engineeringkiosk.dev/join-discord
- Buy us a coffee: https://engineeringkiosk.dev/kaffee
- Email: [email protected]
- LinkedIn: https://www.linkedin.com/company/engineering-kiosk/
- Mastodon: https://podcasts.social/@engkiosk
- Bluesky: https://bsky.app/profile/engineeringkiosk.bsky.social
- Twitter: https://twitter.com/EngKiosk
Links
- Stefan Sprenger auf LinkedIn: https://www.linkedin.com/in/stsprenger/
- Buch “Streaming Data Pipelines with Kafka” von Stefan Sprenger: https://www.manning.com/books/streaming-data-pipelines-with-kafka
- Kafka: https://kafka.apache.org/
- Kafka Streams: https://kafka.apache.org/documentation/streams/
- Kafka Connect: https://docs.confluent.io/platform/current/connect/index.html
- Apache Flink: https://flink.apache.org/
- Apache Spark: https://spark.apache.org/
- Apache Camel: https://camel.apache.org/
- Change Data Capture: https://en.wikipedia.org/wiki/Change_data_capture
- Debezium: https://debezium.io/
- Wartungsfenster Podcast: https://wartungsfenster.podigee.io/
- RocksDB: https://rocksdb.org/
- Tombstone Record: https://en.wikipedia.org/wiki/Tombstone_(data_store)
- The Raft Consensus Algorithm: https://raft.github.io/
- Warpstream: https://www.warpstream.com/
Sprungmarken
(00:00:00) Streaming mit Kafka mit Stefan Sprenger
(00:06:18) Data Streaming und Stream Processing für 5-Jährige
(00:07:40) Data Streaming und Stream Processing für Mid-Level-Engineers
(00:07:47) Info/Werbung
(00:08:47) Data Streaming und Stream Processing für Mid-Level-Engineers
(00:14:14) Was ist Apache Kafka?
(00:20:54) Datensätze in Apache Kafka: Produzieren und Konsumieren
(00:25:58) Kafka Streams und Kafka Connect
(00:30:34) Change Data Capture
(00:34:36) Herausforderungen bei der Anwendung von Kafka, Kafka Streams und Kafka Connect
(00:42:54) Compaction, Retention, Replication, Acknowledgement, Joins und Idempotenz
(00:53:46) Einsatz in Organisationen: Governance und Schema Registry
(00:59:00) Verteiltes System und komplexe Technologien
(01:01:47) Die Zukunft um Kafka und das Ecosystem
Hosts
- Wolfgang Gassler (https://mastodon.social/@woolf)
- Andy Grunwald (https://andygrunwald.com/)
Feedback
- EngKiosk Community: https://engineeringkiosk.dev/join-discord
- Buy us a coffee: https://engineeringkiosk.dev/kaffee
- Email: [email protected]
- LinkedIn: https://www.linkedin.com/company/engineering-kiosk/
- Mastodon: https://podcasts.social/@engkiosk
- Bluesky: https://bsky.app/profile/engineeringkiosk.bsky.social
- Twitter: https://twitter.com/EngKiosk
Altri episodi di "Engineering Kiosk"
Non perdere nemmeno un episodio di “Engineering Kiosk”. Iscriviti all'app gratuita GetPodcast.