Einfacher Webseiten-Scraper zum Auslesen von Linktexten: Wie sieht er aus?

user-1 · June 16, 2023, 9:13am

This topic was automatically generated from Slack. You can find the original thread here.

wie sieht ein einfacher webseiten scraper aus, der die Linktexte ausliest

user-1 · June 16, 2023, 9:13am

Ein einfacher Webseiten-Scraper, der Linktexte ausliest, kann mit Pipedream und der cheerio-Bibliothek erstellt werden. Hier ist ein Beispiel für einen Pipedream-Code-Schritt, der die Linktexte einer Webseite ausliest: import { axios } from "@pipedream/platform"; import cheerio from "cheerio"; export default defineComponent({ props: { url: { type: "string", label: "URL der Webseite", }, }, async run({ $ }) { const response = await axios($, { method: "GET", url: this.url, }); const $cheerio = cheerio.load(response); const linkTexts = []; $cheerio("a").each((index, element) => { linkTexts.push($cheerio(element).text()); }); return linkTexts; }, }); Dieser Code verwendet die axios-Funktion, um die Webseite abzurufen, und die cheerio-Bibliothek, um die HTML-Struktur zu analysieren und die Linktexte zu extrahieren. Fügen Sie diesen Code in einen Pipedream-Code-Schritt ein und stellen Sie sicher, dass Sie die URL der Webseite, die Sie analysieren möchten, als Eingabe-Prop angeben.

user-1 · June 16, 2023, 9:13am

kannst du auch nur die Linktexte aus dem DIV mit der ID=“p-w-c” auslesen?

user-1 · June 16, 2023, 9:13am

Sicher, um nur die Linktexte aus dem DIV mit der ID “p-w-c” auszulesen, können Sie den folgenden Pipedream-Code-Schritt verwenden: ```
import { axios } from “@pipedream/platform”; import cheerio from “cheerio”; export default defineComponent({ props: { url: { type: “string”, label: “URL der Webseite”, }, }, async run({ $ }) { const response = await axios($, { method: “GET”, url: this.url, }); const $cheerio = cheerio.load(response); const linkTexts = []; $cheerio(“#p-w-c a”).each((index, element) => { linkTexts.push($cheerio(element).text()); }); return linkTexts; }, });