我的需求
Python 爬蟲指定網址的 HTML,抓 <section class="content"> 包含的所有內容,並用 markdownify 將 HTML 標籤通通轉換為 Markdown。
ChatGPT 回應
好的,你可以使用以下的 Python 程式碼來完成這個任務。請確保你已經安裝了相關的套件,你可以使用 pip install requests
和 pip install markdownify
進行安裝。
import requests
from bs4 import BeautifulSoup
from markdownify import markdownify as md
# 要爬取的網址
url = "你的目標網址"
# 發送 GET 請求並獲取 HTML 內容
response = requests.get(url)
html_content = response.text
# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html_content, 'html.parser')
# 找到包含內容的 <section class="content">
content_section = soup.find('section', class_='content')
# 獲取該 section 內的所有內容
content_html = str(content_section)
# 將 HTML 轉換為 Markdown
content_markdown = md(content_html)
# 顯示結果
print(content_markdown)
請替換 url
變數的值為你要爬取的網址。這個程式碼使用了 requests
套件來發送 HTTP 請求,BeautifulSoup
套件來解析 HTML,以及 markdownify
套件來將 HTML 轉換為 Markdown。確保你已經安裝了這些套件,並根據需要進行調整。