Python 爬蟲指定網址的 HTML，並將 HTML 標籤通通轉換為 Markdown

萌芽站長

我的需求

Python 爬蟲指定網址的 HTML，抓 <section class="content"> 包含的所有內容，並用 markdownify 將 HTML 標籤通通轉換為 Markdown。

ChatGPT 回應

好的，你可以使用以下的 Python 程式碼來完成這個任務。請確保你已經安裝了相關的套件，你可以使用 pip install requests 和 pip install markdownify 進行安裝。

import requests
from bs4 import BeautifulSoup
from markdownify import markdownify as md

# 要爬取的網址
url = "你的目標網址"

# 發送 GET 請求並獲取 HTML 內容
response = requests.get(url)
html_content = response.text

# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 找到包含內容的 <section class="content">
content_section = soup.find('section', class_='content')

# 獲取該 section 內的所有內容
content_html = str(content_section)

# 將 HTML 轉換為 Markdown
content_markdown = md(content_html)

# 顯示結果
print(content_markdown)

請替換 url 變數的值為你要爬取的網址。這個程式碼使用了 requests 套件來發送 HTTP 請求，BeautifulSoup 套件來解析 HTML，以及 markdownify 套件來將 HTML 轉換為 Markdown。確保你已經安裝了這些套件，並根據需要進行調整。