- 最後登錄
- 2024-1-1
- 在線時間
- 1 小時
- 註冊時間
- 2007-6-29
- 閱讀權限
- 20
- 精華
- 0
- UID
- 1666479
- 帖子
- 10
- 積分
- 106 點
- 潛水值
- 4183 米
| 成為伊莉的版主,你將獲得更高級和無限的權限。把你感興趣的版面一步步地發展和豐盛,那種滿足感等著你來嚐嚐喔。 只會一點點 Python 3 + google 拼拼湊湊的 不知道這樣有沒有幫助- # -*- coding: utf-8 -*-
- from bs4 import BeautifulSoup
- from lxml import html
- import requests
- def main():
- # 網址
- pageUrl = "https://www.ptt.cc/bbs/Stock/M.1504766085.A.C9B.html"
- # 取得網址內容
- rs = requests.session()
- res = rs.get(pageUrl, stream=True, verify=True)
- soup = BeautifulSoup(res.text, "lxml")
- # 取得內文
- mainContent = soup.find('div', {'id':'main-content'})
- # 去除不要的標籤
- for s in mainContent.find_all('div', {'class':'push'}, recursive=False):
- s.decompose()
- for s in mainContent.find_all('div', {'class':'article-metaline-right'}, recursive=False):
- s.decompose()
- for s in mainContent.find_all('span', {'class':'f2'}, recursive=False):
- s.decompose()
- for s in mainContent.find_all('div', {'class':'article-metaline'}, recursive=False):
- s.decompose()
- mainContent = BeautifulSoup(mainContent.decode_contents(formatter=None), "html.parser")
- print(mainContent.prettify())
- if __name__=='__main__':
- main()
複製代碼 ... |
|