This topic was automatically generated from Slack. You can find the original thread here.
wie sieht ein einfacher webseiten scraper aus, der die Linktexte ausliest
This topic was automatically generated from Slack. You can find the original thread here.
wie sieht ein einfacher webseiten scraper aus, der die Linktexte ausliest
Ein einfacher Webseiten-Scraper, der Linktexte ausliest, kann mit Pipedream und der cheerio
-Bibliothek erstellt werden. Hier ist ein Beispiel für einen Pipedream-Code-Schritt, der die Linktexte einer Webseite ausliest: import { axios } from "@pipedream/platform"; import cheerio from "cheerio"; export default defineComponent({ props: { url: { type: "string", label: "URL der Webseite", }, }, async run({ $ }) { const response = await axios($, { method: "GET", url: this.url, }); const $cheerio = cheerio.load(response); const linkTexts = []; $cheerio("a").each((index, element) => { linkTexts.push($cheerio(element).text()); }); return linkTexts; }, });
Dieser Code verwendet die axios
-Funktion, um die Webseite abzurufen, und die cheerio
-Bibliothek, um die HTML-Struktur zu analysieren und die Linktexte zu extrahieren. Fügen Sie diesen Code in einen Pipedream-Code-Schritt ein und stellen Sie sicher, dass Sie die URL der Webseite, die Sie analysieren möchten, als Eingabe-Prop angeben.
kannst du auch nur die Linktexte aus dem DIV mit der ID=“p-w-c” auslesen?
Sicher, um nur die Linktexte aus dem DIV mit der ID “p-w-c” auszulesen, können Sie den folgenden Pipedream-Code-Schritt verwenden: ```
import { axios } from “@pipedream/platform”; import cheerio from “cheerio”; export default defineComponent({ props: { url: { type: “string”, label: “URL der Webseite”, }, }, async run({ $ }) { const response = await axios($, { method: “GET”, url: this.url, }); const $cheerio = cheerio.load(response); const linkTexts = []; $cheerio(“#p-w-c a”).each((index, element) => { linkTexts.push($cheerio(element).text()); }); return linkTexts; }, });