IDB-Zusammenfassung/zusammenfassung.tex

446 lines
26 KiB
TeX

\documentclass[11pt,a4paper]{scrartcl}
\usepackage[table]{xcolor}
\usepackage[a4paper,left=1.5cm,right=1.5cm,top=2.0cm,bottom=2.0cm]{geometry}
\usepackage[ngerman]{babel}
\usepackage{amssymb}
\usepackage{mathrsfs}
\usepackage[utf8]{inputenc}
\usepackage{amsmath}
\usepackage{enumitem}
\usepackage{tikz-qtree}
\usepackage{mathtools}
\usepackage{latexsym}
\usepackage{algorithmicx}
\usepackage{csquotes}
\usepackage{pdfpages}
\usepackage{pgfplots}
\usepackage{hyperref}
\usepackage{listings}
\usepackage{pdflscape}
\usepackage{tikz}
\usetikzlibrary{positioning}
\usetikzlibrary{arrows}
\usetikzlibrary{automata}
\usetikzlibrary{shapes}
\usetikzlibrary{calc}
\usetikzlibrary{decorations.markings}
\usetikzlibrary{matrix}
\usepackage{commath}
\pdfminorversion=7 % Import-Unterstützung für PDFs bis Version 1.7
\pgfplotsset{compat=1.16} % verhindern, dass pgfplots im Rückwärtskompatibilitätsmodus arbeitet
\definecolor{fau_blau}{RGB}{26, 71, 115}
\newcommand{\begriff}[1]{\textcolor{fau_blau}{\emph{#1}}}
\newcommand{\wichtig}[1]{\emph{#1}}
\tikzset{rectangle state/.style={draw,rectangle}}
\title{Zusammenfassung IDB}
\author{Marco Ammon}
\date{\today}
\begin{document}
\maketitle
\section{Einführung}
\begin{itemize}
\item \begriff{Datenabstraktion} / \begriff{Datenunabhängigkeit}: persistentes Speichern und Wiedergewinnen (Auffinden und Aushändigen) von Daten \wichtig{unabhängig} von Details der Speicherung
\item \begriff{Schicht}: realisiert \begriff{Dienst} und stellt ihn per \begriff{Schnittstelle} zur Verfügung
\end{itemize}
\section{Dateiverwaltung}
\begin{itemize}
\item \begriff{physische} Speichergeräte (z.B. Festplatten) werden durch \begriff{logische} abstrahiert (z.B. Neueinlesen bei Checksum-Fehlern)
\item \begriff{Block} als kleinste Einheit der IO
\item \enquote{Adresse} eines Blocks: (Zylinder, Spur, Sektor)
\item \begriff{Dateien} als benannte Menge von Blöcken
\item \begriff{blockorientierte} Zugriffsmethode: verwendet eindeutige, fortlaufende Blockadressen innerhalb der Datei
\end{itemize}
\section{Sätze}
\begin{itemize}
\item \begriff{Satz} als zusammengehörende Daten eines Gegenstands der Anwendung (z.B. Tupel, Objekt) mit variabler oder fester Länge
\item \begriff{Satzdatei} als Sammlung von Sätzen, kann über verschiedene Blöcke verteilt sein
\item Ausprägungen: \begin{itemize}
\item \begriff{sequentiell}: \begin{itemize}
\item Reihenfolge der Abspeicherung und des Auslesens bereits mit Schreiben festgelegt
\item \wichtig{keine} Änderungen / Löschen möglich
\item kein wahlfreier Zugriff
\end{itemize}
\item \begriff{direkt}: \begin{itemize}
\item Verwendung sogenannter \begriff{Satzadressen} (hier als \begriff{TID}s realisiert; \wichtig{eindeutig} und \wichtig{unveränderlich}) als Adresstupel (Block, Index)
\item Abbildung von Index auf Offset innerhalb eines Blockes durch Array am Ende eines Blockes
\item erlaubt wahlfreien Zugriff
\item erlaubt Löschen von Sätzen: Index wird ungültig markiert, folgende Sätze nach vorne verschoben, Anpassung der Offsets
\item erlaubt Ändern von Sätzen: \begin{itemize}
\item \wichtig{ohne} Überlauf: Verschieben der folgenden Sätze, Anpassung der Offsets
\item \wichtig{mit} Überlauf: Satz wird in anderen Block verschoben, Verweis auf diesen wird angelegt, (evtl.) Anpassung der Offsets
\end{itemize}
\end{itemize}
\end{itemize}
\end{itemize}
\section{Schlüssel}
\begin{itemize}
\item \begriff{Schlüsselwerte} als \enquote{inhaltsbezogene Adressen}
\item \begriff{Hashing}: \begin{itemize}
\item \begriff{Hash-Funktion} verteilt Schlüsselwert möglichst gleichmäßig auf verfügbare \begriff{Buckets} (Blöcke)
\item \begriff{Divisions-Rest-Verfahren}: $h(k) = (k \mod q)$ mit Schlüsselwert $k$ und Anzahl der Buckets $q$
\item Problem des \begriff{Überlaufs} mit verschiedenen Lösungsmöglichkeiten: \begin{itemize}
\item \begriff{Open Addressing}: Ausweichen auf Nachbarbuckets
\item spezielle \begriff{Overflow-Buckets}: Bucket verweist auf \enquote{\wichtig{seinen}} Overflow-Bucket
\end{itemize}
\item \begriff{virtuelles Hashing} zur konstanten Reorganisation: \begin{itemize}
\item Anzahl der Buckets $q$, Sätze pro Bucket $b$ $\Rightarrow$ Kapazität $\coloneqq q \cdot b$
\item Belegungsfaktor $\beta \coloneqq \frac{\text{Anzahl gespeicherter Sätze}\ N}{\text{Kapazität}}$
\item Wenn $\beta > \text{Schwellwert}\ \alpha$, Menge der Buckets vergrößern
\item als \begriff{VH1}: \begin{itemize}
\item Anzahl der Blöcke direkt verdoppeln
\item neue Hashfunktion $h_2$ einführen
\item Bitmaske um Verwendung der neuen Hashfunktion zu verwalten
\item bei \wichtig{Einfügen} eines Satzes in ein \enquote{altes} Bucket Neuverteilung dieses Buckets mittels $h_2$, Bit setzen
\end{itemize}
\item als \begriff{Lineares Hashing}: \begin{itemize}
\item Positionszeiger $p$
\item \wichtig{ein} neues Bucket anlegen
\item Bucket an Stelle $p$ mit $h_2$ aufteilen, $p$++
\item wenn $h_1(k) < p$, dann mittels $h_2$ verteilen
\end{itemize}
\end{itemize}
\end{itemize}
\item \begriff{Indizes} mittels \begriff{Bäumen}: \begin{itemize}
\item \begriff{B-Baum}: \begin{itemize}
\item jeder \begriff{Knoten} ist genau einen Block groß
\item \wichtig{balanciert}, alle Blätter außer Wurzel immer mindestens zur Hälfte gefüllt
\item Knoten: \begin{itemize}
\item Anzahl der verwendeten Einträge $n$, es gilt $k \leq n \leq 2k$
\item \begriff{Eintrag}: Tupel (Schlüsselwert, Datensatz, Blocknummer des Kindknotens)
\item Einträge nach Schlüsselwert \wichtig{sortiert}
\end{itemize}
\item Einfügen: wie Suchen; nur in Blattknoten; bei Überlauf \enquote{linke} und \enquote{rechte} Einträge als neue Knoten, \enquote{mittlerer} als \begriff{Diskriminator} in Eltern-Knoten einfügen
\item Löschen von Schlüssel $S$ im Blattknoten: \begin{itemize}
\item Entfernen und ggf. Unterlauf behandeln
\end{itemize}
\item Löschen von Schlüssel $S$ in innerem Knoten: \begin{itemize}
\item betrachte die Blattknoten mit direktem Vorgänger $S'$ und direktem Nachfolger $S''$ von $S$
\item wähle den größeren
\item ersetze $S$ je nach Wahl durch $S'$ bzw. $S''$
\item lösche entsprechenden Schlüssel $S'$ bzw. $S''$ und ggf. Unterlauf behandeln
\end{itemize}
\item Höhe: \begin{itemize}
\item obere Schranke: $h(n) = \log_{k+1}\left(\frac{n+1}{2}\right) + 1$
\item untere Schranke: $h(n) = \log_{2k+1}\left(n + 1 \right)$
\end{itemize}
\end{itemize}
\item \begriff{B*-Baum} / \begriff{B+-Baum}: \begin{itemize}
\item Sätze stehen \wichtig{ausschließlich} in Blattknoten
\item innerer Knoten: \begin{itemize}
\item Anzahl der verwendeten Einträge $n$
\item Eintrag: Tupel (Referenzschlüssel, Blocknummer des Kindknotens)
\end{itemize}
\item Blattknoten: \begin{itemize}
\item Anzahl der verwendeten Einträge $n$
\item Vorgänger-Zeiger, Nachfolger-Zeiger
\item Eintrag: Tupel (Schlüsselwert, Datensatz)
\end{itemize}
\item Löschen ohne Unterlauf: lösche Satz aus Blatt; Diskriminator muss \wichtig{nicht} geändert werden
\item Löschen mit Unterlauf:\begin{itemize}
\item Ist Anzahl der Einträge des Blatts und eines Nachbarknotens größer als 2k, verteile Sätze neu auf beide Knoten
\item ansonsten mische beide Blätter zu einem einzigen
\end{itemize}
\end{itemize}
\item \begriff{R-Baum}: \begin{itemize}
\item ähnlich zu B-Baum
\item multidimensional
\item arbeitet mit Rechtecken
\item beim Einfügen Rechteck nur möglichst gering vergrößern
\end{itemize}
\item Müssen nicht zwangsläufig zur \begriff{Primärorganisation} verwendet werden, können als \enquote{Sätze} z.B. auch nur Satzadressen enthalten
\end{itemize}
\item \begriff{Bitmap-Indizes}: eine Bitmap \wichtig{pro Schlüsselwert}
\end{itemize}
\section{Puffer}
\begin{itemize}
\item Hauptspeicherbereich, der Blöcke aufnehmen kann, um (Lese-/Schreibe-) Zugriffe zu \wichtig{beschleunigen}
\item \begriff{Ersetzungsstrategie}: \enquote{Welcher Block wird verdrängt?} \begin{itemize}
\item \begriff{first in, first out} (FIFO): \enquote{ältester} Block
\item \begriff{least frequently used} (LFU): am seltensten benutzter Block
\item \begriff{least recently used} (LRU): am längsten nicht mehr benutzter Block \begin{itemize}
\item Stacktiefenverteilung: \enquote{Wie tief liegen die referenzierten Seiten?}
\end{itemize}
\item \begriff{second chance} (CLOCK): Approximation von LRU mit einfacherer Implementierung: \begin{itemize}
\item Jeder Block im Puffer besitzt ein \begriff{Benutzt-Bit}
\item bei Verdrängung Suche mit Zeiger
\item falls Benutzt-Bit 1, auf 0 setzen und Zeiger weiterschieben
\item falls Benutzt-Bit 0, Block ersetzen
\end{itemize}
\item \begriff{Working Set Size} $\abs{W(t,w)}$: Anzahl der unterschiedlichen referenzierten Seiten in den letzten $w$ Zugriffen bis Zeitpunkt $t$
\item \begriff{aktuelle Lokalität}: $AL(t,w) = \frac{\abs{W(t,w)}}{w}$
\item \begriff{durchschnittliche Lokalität}: $L(w) = \frac{\sum_{t=w}^{n} AL(t,w)}{n - w + 1}$
\end{itemize}
\item Zustand im Fehlerfall hängt unter anderem von \begriff{Einbringstrategie} (siehe \hyperref[recovery]{Recovery}) und \begriff{Seitenzuordnung} ab
\item Seitenzuordnung: \enquote{Welche Blöcke (in einer Datei) gehören zu einer Seite (im Puffer)?} \begin{itemize}
\item \begriff{direkt}: aufeinander folgende Seiten werden auf aufeinander folgende Blöcke einer Datei abgebildet
\item \begriff{indirekt}: \begriff{Page Table} enthält zu jeder Seite eine Blocknummer
\end{itemize}
\item Seiteneinbringung: \begin{itemize}
\item \begriff{direkt}: Bei Verdrängung aus Puffer wird genau der Block überschrieben, aus dem ursprünglich eingelagert wurde (\enquote{update-in-place})
\item \begriff{indirekt}: Bei Verdrängung aus Puffer wird in einen freien Block geschrieben.
\end{itemize}
\item Problem der indirekten Seiteneinbringung: \enquote{Wann können alte Blöcke gelöscht werden?}; verschiedene Lösungsansätze: \begin{itemize}
\item \begriff{Schattenspeicher}: \begin{itemize}
\item Änderungen nur auf Kopien, die periodisch dann mit \enquote{gesicherter} Version vertauscht wird
\end{itemize}
\item \begriff{Twin Slots}: \begin{itemize}
\item jede Seite hat zwei Blöcke
\item immer beide lesen, bei Änderungen älteren überschreiben
\end{itemize}
\end{itemize}
\end{itemize}
\section{Programmzugriff}
\begin{itemize}
\item \begriff{Precompiler} übersetzt SQL-Anweisungen (mittels \texttt{EXEC SQL} gekennzeichnet) zur \wichtig{Compile-Zeit} in die verwendete Programmiersprache \begin{itemize}
\item Deklaration der verwendeten Variablen am Anfang mittels \texttt{DECLARE SECTION}
\item Fehlermeldungen und ähnliches werden über die sogenannte \begriff{SQL communication area} verwaltet (\texttt{INCLUDE SQLCA} am Anfang)
\item Mengen-orientes Paradigma des DBVS oft nicht mit Programmiersprache vereinbar $\Rightarrow$ Einrichtung eines \begriff{Cursors} zum tupelweisen Durchlaufen der Ergebnismenge
\item Beispielablauf: \texttt{DECLARE CURSOR} $\rightarrow$ \texttt{OPEN} $\rightarrow$ (mehrfach) \texttt{FETCH} bis Fehlercode $== 100$ $\rightarrow$ \texttt{CLOSE}
\item kann durch Präprozessor direkt als \hyperref[stored-procedure]{\begriff{stored procedure}} angelegt werden
\end{itemize}
\item \begriff{Unterprogrammaufruf} (\begriff{Call-Level-Interface}): \begin{itemize}
\item Übergabe der SQL-Anweisungen zur \wichtig{Laufzeit}
\item Beispiel JDBC \begin{itemize}
\item \texttt{Connection con = DriverManager.getConnection(URL, USER, PASSWORD);}
\item \texttt{Statement anweisung = con.createStatement();\\
ResultSet ergebnis = anweisung.execureQuery(ANFRAGE);}\\
außerdem: \texttt{int executeUpdate(String sql)}, \texttt{boolean execute(String sql)}
\item \texttt{while (ergebnis.next()) int pnr = ergebnis.getInt(1);}
\end{itemize}
\item Bei mehrfacher Ausführung der gleichen Abfrage mit unterschiedlichen Werten \begriff{prepared statements} sinnvoll: \begin{itemize}
\item Anfrage enthält Platzhalter für Werte
\item Analyse, Ausführungsplanerstellung und weiteres wird sofort durchgeführte
\item JDBC: \begin{itemize}
\item \texttt{PreparedStatement prep =\\con.prepareStatement("{}INSERT INTO ... VALUES (?,?)"{})}
\item Setzen der Werte mittels \texttt{void setDATENTYP(int paramId, DATENTYP val)}
\item Ausführung mit \texttt{prep.executeUpdate()}
\end{itemize}
\end{itemize}
\item bei stored-procedures nur noch einmaliges Analysieren, etc. zur Compile-Zeit erforderlich: \label{stored-procedure} \begin{itemize}
\item Prozedur in DBVS bekommt \enquote{Namen}, über den sie mit Werten als Parametern aufrufbar ist
\item JDBC:\begin{itemize}
\item \texttt{CallableStatement call = con.prepareCall("\{ call PROZEDUR \}");}
\item Eingabe-Parameter analog zu prepared statements
\item Ausgabe-Parameter mittels \texttt{registerOutParameter(int paramId, int type)}
\end{itemize}
\end{itemize}
\end{itemize}
\item \begriff{O/R-Mapping} bildet Objekte der Programmiersprace (meist durch Annotationen) auf Tupel der relationalen DB ab
\end{itemize}
\section{Transaktionen}
\begin{itemize}
\item sinnvoll für \wichtig{nebenläufigen} Zugriff
\item erleichtern Umgang mit \begriff{Fehlern} und Ausfällen (siehe \hyperref[recovery]{Recovery}
\item \begriff{Transaktion} als \begriff{logische Einheit} einer Folge von DB-Operationen (von einem logisch konsistenten Zustand zum nächsten): \begin{itemize}
\item bei Fehler vor Ende: Rückgängigmachen der bisher durchgeführten Änderungen
\item bei Fehler nach Ende: kein Problem
\item Anfang meist implizit (oder \begriff{begin})
\item Ende durch \begriff{commit} (Änderungen sollen durchgeführt werden) bzw. \begriff{abort}/\begriff{rollback} (Änderungen sollen verworfen werden)
\end{itemize}
\item \begriff{ACID}-Eigenschaften einer Transaktion: \begin{itemize}
\item \begriff{Atomarität} (\enquote{alles oder nichts} wird ausgeführt)
\item \begriff{Konsistenz}
\item \begriff{Isolation} (gegenüber anderen Zugriffen auf DB)
\item \begriff{Dauerhaftigkeit} (auch nach Fehler bleiben erfolgreiche Transaktionen bestehen)
\end{itemize}
\item \enquote{Lebenszyklus} einer Transaktion\\
\input{fig/zustandsuebergangsdiagramm.tex}
\item \begriff{Anomalien} im \begriff{Mehrbenutzerbetrieb}: \begin{itemize}
\item \begriff{dirty read}: Lesen von nicht freigegeben Änderungen: $w_1[x], r_2[x]$, erst danach Commit / Rollback
\item \begriff{dirty write}: Überschreiben von nicht freigegebenen Änderungen: $w_1[x], w_2[x]$, erst danach Commit / Rollback
\item \begriff{non-repeatable read}: Änderung nachdem gelesen wurde: $r_1[x], w_2[x]$, erst danach Commit / Rollback
\item \begriff{Phantom-Problem}: Ändern/Anlegen eines Tupels, das gelesenes Prädikat $P$ erfüllt: $r_1[P], w_1[y\in P]$, erst danach Commit/Rollback
\end{itemize}
\item \begriff{Serialisierbarkeitstheorie}: \begin{itemize}
\item Ablauf ist \begriff{serialisierbar}, wenn es einen \begriff{äquivalenten} \wichtig{seriellen} Ablauf seiner Transaktionen gibt
\item Äquivalenz von Abläufen $G$, $H$, wenn für jedes Datenobjekt $A$ gilt ($<$ $\widehat{=}$ \enquote{vor}):
\begin{align*}
r_i[A] <_H w_j[A] &\Leftrightarrow r_i[A] <_G w_j[A]\\
w_i[A] <_H r_j[A] &\Leftrightarrow w_i[A] <_G r_j[A]\\
w_i[A] <_H w_j[A] &\Leftrightarrow w_i[A] <_G w_j[A]
\end{align*}
\item \begriff{Abhängigkeitsgraph} hat \wichtig{keine} Zyklen $\Rightarrow$ Ablauf serialisierbar
\end{itemize}
\item \begriff{Sperrverfahren} mittels \begriff{Sperrtabelle}: \begin{itemize}
\item Sperrung muss \wichtig{vor} Zugriff erfolgen
\item Transaktionen fordern Sperre nicht erneut an
\item Sperren müssen beachtet werden
\item erst am Ende einer Transaktion dürfen Sperren freigegeben werden
\item \begriff{X-Sperre}: exklusiv, für Änderungen notwendig
\item \begriff{S-Sperre}: geteilt, für Lesen notwendig
\item \begriff{IX-Sperre}: exklusiv, zeigt Sperren auf feingranularerer Ebene an
\item \begriff{IS-Sperre}: geteilt, zeigt Sperren auf feingranularerer Ebene an
\item \begriff{SIX-Sperre}: S + IX, wenn alle Tupel gelesen, aber nur einige geändert werden
\item \begriff{Top-Down}-Erwerb, \begriff{Bottom-Up}-Freigabe der Sperren
\end{itemize}
\end{itemize}
\section{Speicherung}
\begin{itemize}
\item Speicherung der Tupel in Sätzen: \begin{itemize}
\item zusammengesetzt aus Feldern mit Namen, Typ und Länge (maximal oder variabel)
\item \begriff{Metadaten} in \begriff{Systemkatalog} gespeichert
\item \begriff{Satztyp}: Menge von Sätzen gleicher Struktur (z.B. Tupel einer Relation)
\end{itemize}
\item verschiedene \begriff{Speicherungsstrukturen} in Sätzen: \begin{itemize}
\item mit \begriff{eingebetteten Längenfeldern}: Gesamtlänge $GL$, Inhalt fester Länge $F$, zu jedem Inhalt variabler Länge $V$ vorher die Länge $L$ $\Rightarrow$ satzinterne Adresse kann \wichtig{nicht} direkt aus Katalogdaten berechnet werden\\
\input{fig/eingebettete-laengenfelder.tex}
\item eingebettete Längenfelder mit \begriff{Zeigern}: Länge des festen Strukturteils $FL$, Zeiger auf variable Bereiche $\Rightarrow$ satzinterne Adresse kann aus Katalogdaten berechnet werden\\
\input{fig/zeiger.tex}
\end{itemize}
\item \begriff{spaltenweises} Abspeichern mittels \begriff{C-Store}: \begin{itemize}
\item vor allem auf das Lesen optimiert
\item Änderungen durch Löschen und Einfügen
\item \begriff{Projektion}: \begin{itemize}
\item eine oder mehrere Spalten einer Tabelle (und ggf. anderer, über Fremdschlüssel erreichbare Tabellen) nach einem Attribut sortiert
\item Speicherschlüssel (\begriff{Storage Keys}, \begriff{SK}) für jedes Tupel, aus Position berechenbar
\item \begriff{Verbund-Indizes} (\begriff{Join Indices}): Seien T1 und T2 Projektionen der Tabelle T, dann ist ein Join-Index von T1 zu T2 eine Liste von Tupeln aus T2 um den jeweiligen SK aus T1 ergänzt.
\end{itemize}
\item verschiedene \begriff{Komprimierungen} abhängig von Sortierung und Anzahl der verschiedenen Werte: \begin{itemize}
\item sortiert, wenige verschiedene Werte: Tripel (Wert, Position des ersten Auftretens, Anzahl des gleichen Werts) in B-Baum
\item unsortiert, wenige verschiedene Werte: lauflängenkodierte Bitmaps pro Wert mit B-Baum zum Auffinden der richtigen Bitmap
\item sortiert, viele verschiedene Werte: Delta-Kodierung (DIffertenz zum Vorgänger) mit B-Baum als Primärorganisation
\item unsortiert, viele verschiedene Werte: unkomprimiert, bei Zeichenketten \begriff{Dictionary}
\end{itemize}
\end{itemize}
\end{itemize}
\section{Anfrageverarbeitung}
\begin{itemize}
\item Abbildung von mengenorientierten Operatoren auf interne Satzschnittstelle
\item \begriff{Anfrageverarbeitung} erstellt einen \begriff{Anfrageausführungsplan}: \begin{itemize}
\item Analyse: lexikalische und syntaktische Prüfung, semantische Prüfung, Zugriffskontrolle, Integritätskontrolle
\item Optimierung: \begin{itemize}
\item \begriff{Standardisierung} und Vereinfachung
\item \begriff{algebraische} Verbesserung
\item \begriff{nicht-algebraische} Verbesserung: Berücksichtigung der Kosten der \begriff{Planoperatoren}
\end{itemize}
\item Code-Generierung
\item Ausführungskontrolle
\end{itemize}
\item \begriff{logische Operatoren} mit Relationen $R$, $S$ und Prädikat $P$: \begin{itemize}
\item \begriff{Selektion} $\text{SEL}(R, P)$
\item \begriff{Projektion} $\text{PROJ}(R, L)$ mit $L = (A_1, \dots, A_k)$
\item \begriff{Kreuzprodukt} $\text{CROSS}(R,S)$
\item \begriff{Verbund} $\text{JOIN}(R,S,P(R_{Ai}, S_{Aj}))$
\item \begriff{Vereinigung} $\text{UNION(R;S)}$
\item \begriff{Schnitt} $\text{INTERSECT(R,S)}$
\item \begriff{Ausschluss} $\text{EXCEPT(R,S)}$
\item analoge Operationen auf \begriff{Multimengen}
\item \begriff{Umbenennung} $\text{RENAME}(R, R_\text{neu}, ((A_i, A_{i,\text{neu}}), \dots))$
\item \begriff{Duplikat-Eliminierung} $\text{DUP-ELIM}(R)$
\item \begriff{Aggregation} $\text{SUM}(R, A_i)$, $\text{AVG}(R, A_i)$, $\text{MIN}(R, A_i)$, $\text{MAX}(R, A_i)$, $\text{COUNT}(R)$
\item \begriff{Gruppierung} $\text{GROUP}(R, L, G)$ mit $G = ((\text{AGG}_1, (A_i), \text{name}_1), \dots)$
\item \begriff{erweiterte Projektion} $\text{G-PROJ}(R, L)$ mit $L = (\text{name}_1 = \text{expr}_1, \dots)$
\item \begriff{Sortierung} $\text{SORT}(R, L)$ mit $L = (A_i, A_j, \dots)$
\item \begriff{äußerer Verbund} $\text{OUTER-JOIN}(R,S,P,c)$ mit $c \in \{\text{left}, \text{right}, \text{full}\}$
\end{itemize}
\item allgemeine Vorgehensweise bei Restrukturierung: \begin{itemize}
\item komplexe Verbünde, Selektionen in binäre aufteilen
\item Selektion möglichst \enquote{weit unten} ausführen
\item Selektion und Kreuzprodukt zu Verbund gruppieren
\item aufeinander folgende Selektionen der selben Relation zusammenfassen
\item Projektionen möglichst \enquote{weit unten} ausführen (aber Duplikat-Eliminierung vermeiden)
\end{itemize}
\item Planoperatoren (können durch \begriff{Pipelining} beschleunigt werden): \begin{itemize}
\item Selektion (\begriff{Scan}): \begin{itemize}
\item Kosten: $C(R)$
\item Relationen-Scan (Table-Scan): sequentielles Lesen\\
Kosten: $B(R)$
\item Index-Scan: Verwendung eines Index\\
Kosten: $a\cdot \left\lceil B(R) \cdot \text{Selektivitätsfaktor}\right\rceil$
\end{itemize}
\item Projektion: in andere Planoperatoren integriert\\
Kosten: $C(R)$
\item Sortierung
\item Join mit Relationen $R$, $S$: \begin{itemize}
\item Nested-Loop-Join (für \begriff{Gleichverbund} mit Index-Zugriff verbesserbar)\\
Kosten: $C(R) + B(R) \cdot C(S)$
\item Sorted-Merge-Join (nur für Gleichverbund): sortiere $R$, $S$; \begriff{schritthaltender} Scan\\
Kosten: $C(R) + C(S) + 2 \cdot \left(B(R) + B(T)\right)$
\item Hash-Join (nur für Gleichverbund): kleinere Relation hashen (bei zu großer Relation mehrere Teile); über größere sequentiellen Scan\\
Kosten: $C(R) + C(S)$
\end{itemize}
\item Duplikat-Eliminierung
\item Gruppierung
\end{itemize}
\item je nach System/Anwendung Optimierung auf niedrige CPU-/IO-Last
\item \begriff{Statistiken} für Wahl des Planoperators sinnvoll (Verteilung der Tupel, Selektivität, \dots)
\end{itemize}
\section{Recovery}
\label{recovery}
\begin{itemize}
\item \begriff{Programmfehler}: Absturz des Datenbank-Anwendungsprogramms $\Rightarrow$ Daten im Puffer und auf Festplatte in undefiniertem Zustand
\item \begriff{Systemfehler}: DBVS oder BS fällt aus, Hardware-Fehler, \textellipsis $\Rightarrow$ Daten im Puffer verloren, auf Festplatte in undefiniertem Zustand
\item \begriff{Gerätefehler}: Festplattenausfall $\Rightarrow$ Daten auf Festplatte sind verloren
\item \begriff{Transaktionsfehler}: z.B. \begriff{Deadlock}, falsche Operationen, Aufruf von \texttt{rollback} bzw. \texttt{abort}
\item \begriff{physische Konsistenz}: \begin{itemize}
\item Korrektheit der Speicherungsstrukturen, Verweise und Adressen
\item alle Indizes sind vollständig und stimmen mit Primärdaten überein
\end{itemize}
\item \begriff{logische Konsistenz}: \begin{itemize}
\item Korrektheit der Inhalte
\item Referentielle Integrität, Primärschlüsseleigenschaft und eigene Assertions sind erfüllt
\item erfordert physische Konsistenz
\end{itemize}
\item Nach Fehler soll ein logisch konsistenter Zustand erreicht werden: \begin{itemize}
\item der Zustand vor Beginn der unvollständigen Änderungen durch \begriff{Rückgängigmachen} dieser (\begriff{undo}) \begin{itemize}
\item \begriff{partial}: nach Transaktionsfehler Zurücksetzen der fehlgeschlagenen Transaktion
\item \begriff{global}: nach Systemfehler mit Verlust des Hauptspeicherinhalts Zurücksetzen aller unvollständigen Transaktion
\item Logging-Informationen müssen \wichtig{vor} dem Einbringen gespeichert werden (\begriff{write-ahead log}, WAL)
\end{itemize}
\item der Zustand nach Abschluss aller Änderungen durch \begriff{Vervollständigung} bzw. \begriff{Wiederholung} der unvollständigen Änderungen (\begriff{redo}) \begin{itemize}
\item \begriff{partial}: nach Systemfehler mit Verlust des Hauptspeicherinhalts Wiederholen aller verlorengegangen Änderungen von abgeschlossenen Transaktionen
\item \begriff{global}: nach Gerätefehler Einspielen des Backups und Nachvollziehen aller danach erfolgreichen Transaktionen
\item Logging-Informationen müssen \wichtig{vor} dem Melden des erfolgreichen Abschlusses geschrieben werden
\end{itemize}
\end{itemize}
\item \begriff{Sicherung} und \begriff{Protokollierung} (\begriff{Logging}) \wichtig{immer} notwendig
\item auch Einbringstrategie von Bedeutung: \begin{itemize}
\item \enquote{Wann \wichtig{darf} geänderte Seite auf die Festplatte geschrieben werden?} \begin{itemize}
\item \begriff{Steal}: auch schon vor Ende der Transaktion bei Verdrängung aus dem Puffer
\item \begriff{NoSteal}: erst am Ende der erfolgreichen Transaktion
\end{itemize}
\item \enquote{Wann \wichtig{muss} geänderte Seite auf die Festplatte geschrieben werden?} \begin{itemize}
\item \begriff{NoForce}: erst bei Verdrängung aus dem Puffer (also auch nach Ende einer Transaktion)
\item \begriff{Force}: spätestens am Ende der erfolgreichen Transaktion
\end{itemize}
\item \enquote{Wie werden geänderte Seiten auf die Festplatte geschrieben?} \begin{itemize}
\item \begriff{NotAtomic}: direktes Einbringen, in-place
\item \begriff{Atomic}: indirektes Einbringen, \enquote{Umschalten} von altem auf neuen Zustand
\end{itemize}
\end{itemize}
\item Protokollverfahren: \begin{itemize}
\item \begriff{physisch}: \begin{itemize}
\item \begriff{Zustandprotokollierung}: \begriff{before-image} für undo, \begriff{after-image} für redo, auf Ebene von Seiten oder Sätzen
\item \begriff{Seitenprotokollierung}: für jede geänderte Seite before-image und after-image sichern
\item \begriff{Eintragsprotokollierung}:nur geänderte Teile einer Seite
\end{itemize}
\end{itemize}
\item Begrenzung des Recovery-Aufwands durch \begriff{Sicherungspunkte} (\begriff{checkpoints}): \begin{itemize}
\item \begriff{transaction-oriented checkpoint}: Einbringung mittels Force
\item \begriff{transaction-consistent checkpoint}: Beginn neuer Transaktionen verhindern, auf Abschluss der laufenden warten, dann sichern
\item \begriff{action-consistent checkpoint}: keine Änderungs\wichtig{operation} darf aktiv sein, dann sichern; da aber Transaktionen laufen nur Begrenzung von Redo-Recovery
\end{itemize}
\item \begriff{Wiederherstellungsprozedur}: \begin{itemize}
\item Analyse von letztem Checkpoint bis zum Log-Ende
\item erfolgreiche Transaktionen gegebenenfalls wiederholen
\item fehlgeschlagene Transaktionen von \enquote{neu nach alt} rückgängig machen
\end{itemize}
\end{itemize}
\end{document}