# 검색하고 싶은 기업들 리스트 넣어서 엑셀 파일로 추출하기
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
from datetime import datetime
def get_news(keyword):
wb= Workbook()
sheet = wb.active
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get(f'https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query={keyword}',headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')
lis = soup.select('#main_pack > section > div > div.group_news > ul > li')
for li in lis :
a= li.select_one('a.news_tit')
row = [a.text, a['href']]
sheet.append(row)
today = datetime.today().strftime("%Y-%m-%d")
wb.save(f"news/{today}_{keyword}.xlsx")
wb.close()
keywords = ['삼성전자','LG에너지솔루션','SK하이닉스','NAVER','삼성바이오로직스','삼성전자우','카카오','삼성SDI','현대차','LG화학','기아','POSCO홀딩스','KB금융','카카오뱅크','셀트리온','신한지주','삼성물산','현대모비스','SK이노베이션','LG전자','카카오페이','SK','한국전력','크래프톤','하나금융지주','LG생활건강','HMM','삼성생명','하이브','두산중공업','SK텔레콤','삼성전기','SK바이오사이언스','LG','S-Oil','고려아연','KT&G','우리금융지주','대한항공','삼성에스디에스','현대중공업','엔씨소프트','삼성화재','아모레퍼시픽','KT','포스코케미칼','넷마블','SK아이이테크놀로지','LG이노텍','기업은행']
for keyword in keywords :
print(keyword)
get_news(keyword)
#압축하기
!zip -r /content/files.zip /content/news
#모든 파일 이름 변경하기
import os
path = '/content/news'
names = os.listdir(path)
for name in names:
print(name)
=================
👉모든 파일 이름을 YYYY_MM_DD.회사명(뉴스).xlsx로 바꾸기
import os
path = '/content/news'
files = os.listdir(path)
for name in names:
new_name =name.split('.')[0] + '(뉴스).xlsx'
os.rename(f'/content/news/{name}',f'/content/news/{new_name}')
name = '2023-01-04_삼성물산.xlsx'
new_name =name.split('.')[0] + '(뉴스).xlsx'
'스파르타 > 파이썬' 카테고리의 다른 글
파이썬_02주차_Pandas 기초 (0) | 2023.01.05 |
---|---|
파이썬_1주차_03_이미지 다운로드 (0) | 2023.01.04 |
파이썬_1주차_03_엑셀 다루기 (0) | 2023.01.04 |
파이썬_1주차_02_스크래핑 실습 (0) | 2023.01.02 |
파이썬_1주차_01_파이썬 기초 (0) | 2023.01.02 |