Hoe algoritmes werken
Chapter 5 Graphs

Hoofdstuk 5: Grafen in Algoritmen

Grafen zijn een fundamentele datastructuur die verbindingen en relaties tussen objecten modelleert. Ze hebben een breed scala aan toepassingen in de informatica en daarbuiten, van het modelleren van sociale netwerken en webpaginalinks tot het oplossen van problemen in transport, planning en resourcetoewijzing. In dit hoofdstuk verkennen we de basiskenmerken en -algoritmen voor het werken met grafen, met de nadruk op ongerichte grafen, diepte-eerst- en breedtezoekopdrachten, minimale opspannende bomen en kortste paden.

Ongerichte Grafen

Een ongerichte graaf is een verzameling van knooppunten (of nodes) die zijn verbonden door randen. Formeel definiëren we een ongerichte graaf G als een paar (V, E), waarbij V een verzameling van knooppunten is en E een verzameling van ongeordende paren van knooppunten, genaamd randen. Een rand (v, w) verbindt knooppunten v en w. We zeggen dat v en w aangrenzend of buren zijn. De graad van een knooppunt is het aantal randen dat erop aansluit.

Hier is een eenvoudig voorbeeld van een ongerichte graaf:

   A --- B
  /     / \
 /     /   \
C --- D --- E

In deze graaf is de verzameling van knooppunten V = {A, B, C, D, E} en de verzameling van randen E = {(A, B), (A, C), (B, D), (B, E), (C, D), (D, E)}.

Er zijn verschillende manieren om een graaf in een programma weer te geven. Twee veel voorkomende representaties zijn:

  1. Adjacentiematrix: Een n x n booleaanse matrix A, waarbij n het aantal knooppunten is. De invoer A[i][j] is waar als er een rand is van knooppunt i naar knooppunt j, en anders onwaar.

  2. Adjacentielijsten: Een array Adj van grootte n, waarbij n het aantal knooppunten is. De invoer Adj[v] is een lijst met de buren van v.

De keuze voor een representatie hangt af van de dichtheid van de graaf (verhouding van randen tot knooppunten) en de bewerkingen die we moeten uitvoeren. Adjacentiematrices zijn eenvoudig, maar kunnen inefficiënt zijn voor ijle grafen. Adjacentielijsten zijn ruimte-efficiënter voor ijle grafen en bieden snellere toegang tot de buren van een knooppunt.

Hier is een voorbeeld van hoe we de bovenstaande graaf zouden kunnen weergeven met behulp van adjacentielijsten in Java:

List<Integer>[] graph = (List<Integer>[]) new List[5];
graph[0] = Arrays.asList(1, 2);        // A -> B, C
graph[1] = Arrays.asList(0, 3, 4);     // B -> A, D, E
graph[2] = Arrays.asList(0, 3);        // C -> A, D
graph[3] = Arrays.asList(1, 2, 4);     // D -> B, C, E
graph[4] = Arrays.asList(1, 3);        // E -> B, D

Diepte-eerst zoeken (DFS)

Diepte-eerst zoeken (DFS) is een fundamenteel grafentraversalgorithme dat zo ver mogelijk langs elke tak gaat voordat het terugkeert. Het kan worden gebruikt om veel grafenproblemen op te lossen, zoals het vinden van verbonden componenten, topologische sortering en het detecteren van cycli.

Het DFS-algoritme werkt als volgt:

  1. Begin bij een bronvertex s.
  2. Markeer de huidige vertex als bezocht.
  3. Bezoek recursief alle ongemarkeerde vertices w die grenzen aan de huidige vertex.
  4. Als alle vertices die grenzen aan de huidige vertex zijn bezocht, ga terug naar de vertex vanwaar de huidige vertex werd onderzocht.
  5. Als er nog vertices ongemarkeerd zijn, selecteer er een en herhaal vanaf stap 1.

Hier is een eenvoudige Java-implementatie van DFS met behulp van aangrenzende lijsten:

boolean[] visited;
 
void dfs(List<Integer>[] graph, int v) {
    // Markeer de huidige vertex als bezocht
    visited[v] = true;
    // Bezoek recursief alle ongemarkeerde vertices die grenzen aan de huidige vertex
    for (int w : graph[v]) {
        if (!visited[w]) {
            dfs(graph, w);
        }
    }
}

Om een volledige DFS-doorloop uit te voeren, roepen we dfs(graph, s) aan voor elke vertex s in de grafiek, waarbij visited voor alle vertices op false wordt gezet.

DFS heeft veel toepassingen. We kunnen het bijvoorbeeld gebruiken om verbonden componenten in een ongerichte grafiek te vinden door DFS uit te voeren vanaf elke ongemarkeerde vertex en elke vertex toe te wijzen aan een component op basis van de DFS-boom.

Breedte-eerst zoeken (BFS)

Breedte-eerst zoeken (BFS) is een ander fundamenteel grafentraversalgorithme dat vertices in lagen verkent. Het bezoekt alle vertices op de huidige diepte voordat het doorgaat naar vertices op het volgende diepteniveau.

Het BFS-algoritme werkt als volgt:

  1. Begin bij een bronvertex s en markeer deze als bezocht.
  2. Voeg s toe aan een FIFO-wachtrij.
  3. Zolang de wachtrij niet leeg is:
    • Haal de eerste vertex v uit de wachtrij.
    • Bezoek alle ongemarkeerde vertices w die grenzen aan v.
    • Markeer w als bezocht en voeg ze toe aan de wachtrij.Terwijl de wachtrij niet leeg is:
    • Haal een vertex v uit de wachtrij.
    • Voor elke ongemarkeerde vertex w die aangrenzend is aan v:
      • Markeer w als bezocht.
      • Voeg w toe aan de wachtrij.

Hier is een Java-implementatie van BFS met behulp van aangrenzende lijsten:

boolean[] visited;
 
void bfs(List<Integer>[] graph, int s) {
    // Maak een nieuwe wachtrij aan
    Queue<Integer> queue = new LinkedList<>();
    // Markeer de startvertex s als bezocht
    visited[s] = true;
    // Voeg s toe aan de wachtrij
    queue.offer(s);
 
    // Zolang de wachtrij niet leeg is
    while (!queue.isEmpty()) {
        // Haal een vertex v uit de wachtrij
        int v = queue.poll();
        // Voor elke ongemarkeerde vertex w die aangrenzend is aan v
        for (int w : graph[v]) {
            if (!visited[w]) {
                // Markeer w als bezocht
                visited[w] = true;
                // Voeg w toe aan de wachtrij
                queue.offer(w);
            }
        }
    }
}

BFS is vooral nuttig voor het vinden van kortste paden in ongewogen grafen. De afstand van de bronvertex naar elke andere vertex is het minimum aantal randen in een pad tussen hen. BFS garandeert het vinden van het kortste pad.

Minimale Spannende Bomen

Een minimale spannende boom (MST) is een deelverzameling van de randen van een verbonden, gewogen ongerichte graaf die alle vertices verbindt, zonder cycli en met het minimale totale randgewicht.

Twee klassieke algoritmen voor het vinden van MST's zijn Kruskal's algoritme en Prim's algoritme.

Kruskal's algoritme werkt als volgt:

  1. Maak een bos F waar elke vertex een afzonderlijke boom is.
  2. Maak een verzameling S met alle randen in de graaf.
  3. Zolang S niet leeg is en F nog geen spannende boom is:
    • Verwijder een rand met minimaal gewicht uit S.
    • Als de verwijderde rand twee verschillende bomen verbindt, voeg deze dan toe aan F, waardoor twee bomen worden samengevoegd tot één boom.

Prim's algoritme werkt als volgt:

  1. Initialiseer een boom met één vertex, willekeurig gekozen uit de graaf.
  2. Groei de boom met één rand: van alle randen die de boom verbinden met vertices die nog niet in de boom zitten, vind de rand met het minimale gewicht en voeg deze toe aan de boom.
  3. Herhaal stap 2 totdat alle vertices in de boom zitten.

Hier is een Java-implementatie van Prim's algoritme:

int minKey(int[] key, boolean[] mstSet, int V) {
    // Initialiseer min met de maximale waarde en min_index met -1
    int min = Integer.MAX_VALUE, min_index = -1;
   .
```Hier is de Nederlandse vertaling van het gegeven bestand:
 
```java
for (int v = 0; v < V; v++) {
    if (!mstSet[v] && key[v] < min) {
        min = key[v];
        min_index = v;
    }
}
return min_index;
}
 
void primMST(int[][] graph, int V) {
    int[] parent = new int[V];
    int[] key = new int[V];
    boolean[] mstSet = new boolean[V];
 
    // Initialiseer alle sleutels op oneindig en mstSet op false
    for (int i = 0; i < V; i++) {
        key[i] = Integer.MAX_VALUE;
        mstSet[i] = false;
    }
 
    // Stel de sleutel van de eerste vertex in op 0 en de ouder op -1
    key[0] = 0;
    parent[0] = -1;
 
    for (int count = 0; count < V - 1; count++) {
        int u = minKey(key, mstSet, V);
        mstSet[u] = true;
 
        // Update de sleutels van alle niet-geselecteerde vertices
        for (int v = 0; v < V; v++) {
            if (graph[u][v] != 0 && !mstSet[v] && graph[u][v] < key[v]) {
                parent[v] = u;
                key[v] = graph[u][v];
            }
        }
    }
 
    printMST(parent, graph, V);
}

MSTs hebben veel toepassingen, zoals het ontwerpen van netwerken (communicatie, elektriciteit, hydrauliek, computer) en het benaderen van het handelsreizigersprobleem.

Kortste Paden

Het kortste pad probleem is het vinden van een pad tussen twee vertices in een graaf, waarbij de som van de gewichten van de randen wordt geminimaliseerd. Dit probleem heeft veel variaties, zoals kortste paden vanaf één bron, kortste paden tussen alle paren, en kortste paden naar één bestemming.

Dijkstra's algoritme is een greedy algoritme dat het probleem van kortste paden vanaf één bron oplost voor een graaf met niet-negatieve randgewichten. Het werkt als volgt:

  1. Maak een verzameling sptSet (kortste pad boom set) die bijhoudt welke vertices zijn opgenomen in de kortste pad boom.
  2. Wijs een afstandswaarde toe aan alle vertices in de graaf. Initialiseer alle afstandswaarden op ONEINDIG. Wijs de afstandswaarde 0 toe aan de bronvertex.
  3. Zolang sptSet niet alle vertices bevat, kies een vertex v die niet in sptSet zit en de minimale afstandswaarde heeft. Voeg v toe aan sptSet.

Update de afstandswaarden van alle aangrenzende vertices van v. Om de afstandswaarden bij te werken, loop je door alle aangrenzende vertices. Voor elke aangrenzende vertex w, als de som van de afstand van v en het gewicht van de rand tussen v en w kleiner is dan de huidige afstandswaarde van w, update dan de afstandswaarde van w.Hier is de Nederlandse vertaling van het Markdown-bestand:

Waarde van v (uit bron) en gewicht van rand v-w is minder dan de afstandswaarde van w, update dan de afstandswaarde van w.

Hier is een Java-implementatie van Dijkstra's algoritme:

public void dijkstra(int[][] graph, int src) {
    int V = graph.length;
    int[] dist = new int[V];
    boolean[] sptSet = new boolean[V];
 
    for (int i = 0; i < V; i++) {
        dist[i] = Integer.MAX_VALUE;
        sptSet[i] = false;
    }
 
    dist[src] = 0;
 
    for (int count = 0; count < V - 1; count++) {
        int u = minDistance(dist, sptSet);
        sptSet[u] = true;
 
        for (int v = 0; v < V; v++) {
            if (!sptSet[v] && graph[u][v] != 0 && dist[u] != Integer.MAX_VALUE
                    && dist[u] + graph[u][v] < dist[v]) {
                dist[v] = dist[u] + graph[u][v];
            }
        }
    }
 
    printSolution(dist);
}

Het Bellman-Ford-algoritme is een ander algoritme voor het vinden van de kortste paden van een enkele bronvertex naar alle andere vertices in een gewogen gerichte grafiek. In tegenstelling tot Dijkstra's algoritme kan het Bellman-Ford-algoritme grafieken met negatieve randgewichten aan, zolang er geen negatieve cycli zijn.

Het algoritme werkt als volgt:

  1. Initialiseer afstanden van de bron naar alle vertices als oneindig en de afstand tot de bron zelf als 0.
  2. Ontspan alle randen |V| - 1 keer. Voor elke rand u-v, als de afstand tot v kan worden verkort door de rand u-v te nemen, update dan de afstand tot v.
  3. Controleer op negatieve gewichtscycli. Voer een stap van ontspanning uit voor alle randen. Als er een afstandswijziging is, dan is er een negatieve gewichtscyclus.

Hier is een Java-implementatie van het Bellman-Ford-algoritme:

public void bellmanFord(int[][] graph, int src) {
    int V = graph.length;
    int[] dist = new int[V];
 
    for (int i = 0; i < V; i++)
        dist[i] = Integer.MAX_VALUE;
    dist[src] = 0;
 
    for (int i = 1; i < V; i++) {
        for (int u = 0; u < V; u++) {
            for (int v = 0; v < V; v++) {
                if (graph[u][v] != 0 && dist[u] != Integer.MAX_VALUE
                        && dist[u] + graph[u][v] < dist[v]) {
                    dist[v] = dist[u] + graph[u][v];
                }
            }
        }
    }
 
    for (int u = 0; u < V; u++) {
        for (int v = 0; v < V; v++) {
            if (graph[u][v] != 0 && dist[u] != Integer.MAX_VALUE
                    && dist[u] + graph[u][v] < dist[v]) {
                System.out.println("Graph contains negative weight cycle");
                return;
            }
        }
    }
 
    printSolution(dist);
}

Algoritmen voor kortste paden hebben talrijke toepassingen, zoals in navigatiesystemen, netwerkrouteringsprotocollen en vervoersplanning. Ze zijn fundamentele hulpmiddelen in de grafentheorie en zijn essentieel in veel grafverwerkingstaken.

Conclusie

Grafen zijn veelzijdige en krachtige datastructuren die een breed scala aan problemen kunnen modelleren. In dit hoofdstuk hebben we de basiskenmerken en -typen van grafen onderzocht, en hebben we fundamentele grafenalgoritmen bestudeerd, waaronder diepte-eerst zoeken, breedte-eerst zoeken, minimale opspannende bomen en kortste paden.

Diepte-eerst zoeken en breedte-eerst zoeken bieden systematische manieren om een grafiek te verkennen, en vormen de basis voor veel geavanceerde grafenalgoritmen. Minimale opspannende boom-algoritmen zoals Kruskal's en Prim's vinden een boom die alle vertices verbindt met minimaal totaal kantgewicht. Kortste pad-algoritmen zoals Dijkstra's en Bellman-Ford vinden paden met minimaal gewicht tussen vertices.

Het begrijpen van deze kernconcepten en -algoritmen is cruciaal voor het effectief werken met grafen en het aanpakken van complexe problemen in verschillende domeinen. Naarmate je je verder verdiept in de studie van algoritmen, zul je meer geavanceerde grafenalgoritmen tegenkomen die voortbouwen op deze fundamentele technieken.

Grafen bieden een krachtige taal voor het beschrijven en oplossen van problemen in de informatica en daarbuiten. Het beheersen van grafenalgoritmen zal je voorzien van een veelzijdige toolset voor het modelleren en oplossen van een breed scala aan computationele problemen.# Natuurlijke taal uitdagingen

Inleiding

Natuurlijke taal verwerking (NLP) is een belangrijk onderwerp in de kunstmatige intelligentie en machine learning. Het doel is om computers in staat te stellen om menselijke taal te begrijpen en te genereren. Dit omvat taken zoals tekstanalyse, vertaling, samenvatting, vraag-antwoord systemen, en nog veel meer.

Hoewel er veel vooruitgang is geboekt, zijn er nog steeds veel uitdagingen op het gebied van NLP. In deze notebook zullen we enkele van deze uitdagingen bespreken.

Ambiguïteit

Een van de grootste uitdagingen in NLP is ambiguïteit. Natuurlijke taal is vaak ambigu, wat betekent dat woorden of zinnen meerdere betekenissen kunnen hebben. Dit kan problemen opleveren voor computersystemen die proberen de betekenis van tekst te begrijpen.

Bijvoorbeeld, neem de zin "De bank is groen". Dit kan betekenen dat de financiële instelling groen is, of dat de zitbank groen van kleur is. Zonder meer context is het moeilijk voor een computer om de juiste betekenis te bepalen.

# Voorbeeld van ambiguïteit
sentence = "De bank is groen."
# Hoe kunnen we de juiste betekenis bepalen?

Contextafhankelijkheid

Nauw verbonden met ambiguïteit is het probleem van contextafhankelijkheid. De betekenis van woorden en zinnen hangt vaak af van de context waarin ze worden gebruikt. Zonder de juiste context kan het moeilijk zijn om de bedoeling van de spreker of schrijver te begrijpen.

# Voorbeeld van contextafhankelijkheid
sentence1 = "Ik heb een bank gekocht."
sentence2 = "Ik heb een bank gezien in het park."
# Hoe kunnen we de context bepalen om de betekenis te begrijpen?

Idiomatische uitdrukkingen

Natuurlijke taal bevat veel idiomatische uitdrukkingen, die niet letterlijk moeten worden genomen. Deze uitdrukkingen kunnen moeilijk te begrijpen zijn voor computersystemen die taal letterlijk interpreteren.

# Voorbeeld van een idiomatische uitdrukking
idiom = "Het is de pot verwijt de ketel dat hij zwart ziet."
# Hoe kunnen we idiomatische uitdrukkingen herkennen en interpreteren?

Conclusie

Deze uitdagingen laten zien dat het begrijpen van natuurlijke taal een complex probleem is. Computersystemen moeten in staat zijn om ambiguïteit, contextafhankelijkheid en idiomatische uitdrukkingen te herkennen en te interpreteren om effectief te kunnen communiceren met mensen. Er is nog veel onderzoek nodig om deze uitdagingen aan te pakken.