Lo básico del Scraping

Entrada creada como prueba, solo para entender lo muy básico del Scraping. También para anotar links y otra info.

Links de intro.

Web scraping simple > https://openwebinars.net/blog/como-hacer-web-scraping-con-python

Intro al Scraping > https://www.ionos.es/digitalguide/paginas-web/desarrollo-web/web-scraping-con-python/
A practical guide to intro in web scraping > https://realpython.com/python-web-scraping-practical-introduction/

Code.

El resultado de ésta pequeña práctica está orientado a extraer un texto (un poco a mano y sabiendo datos) y pasarlo un CSV donde ya se podría usarse para cargar una DB para un WordPress, por ejemplo.

from urllib.request import urlopen
from bs4 import BeautifulSoup #Instala primero la librería
import csv

url = "http://www.laboralcentrodearte.org/es/educacion/visitas-guiadas-2022-2023"

page = urlopen(url)
html = page.read().decode("utf-8")
soup = BeautifulSoup(html, "html.parser")

content = soup.get_text()

#Imprime todo a piñon 
#print(content)

lista = content.split()
num = 0

for line in lista:
     
    num = num+1 #Enumera cada palabra para saber el principio y fin
    #print(num)

    if line == "14:00":
       # print(num)
        start = num #comienzo del texto requerido

    if line == "Turismo":
        # print(num)
        end = num #final del texto requerido

print(lista[start:end])


# open the file in the write mode
f = open('test.csv', 'a') #con 'a' comenzamos en la última linea libre

# create the csv writer
writer = csv.writer(f)

row_content = [[' '.join(lista[start:end]) ]]
# write a row to the csv file
writer.writerows(row_content)

# close the file
f.close()

Tips interesantes.

Files I/O en Python > https://www.tutorialspoint.com/python/python_files_io.htm
Print list without brackets > https://stackoverflow.com/questions/11178061/print-list-without-brackets-in-a-single-row
Writing CSV files > https://www.programiz.com/python-programming/writing-csv-files
Slice a list > https://stackoverflow.com/questions/621354/how-to-slice-a-list-from-an-element-n-to-the-end-in-python
Get a URL from active sesión in Chrome / Firefox > https://stackoverflow.com/questions/61307967/get-active-url-on-chrome-and-firefox-using-python

Posted

January 4, 2023

dev, ok, software

roman

Tags:

CSV, I/O, python, scraping, tips, web scraping

INICIO

ESTUDIO

LOG

YO

NOTAS

Lo básico del Scraping