Day 65
1. 실전 프로젝트
오늘은 하루종일 파이썬으로 크롤링을 했다. 알라딘의 건강 카테고리의 책들을 크롤링했는데 생각보다 걸리는 부분이 많았다.
우선 보여지는 이미지가 두 종류로 나뉘었다. 일반적인 책 표지과 입체적으로 보이는(?) 책 표지로 나위었는데 둘의 위치가 달라서 조건절을 이용해서 각 위치의 이미지 url을 가져왔다.
두 번째로는 특수문자다. 크롤링을 하고 결과물을 csv 파일로 변환하는 과정에서 특수문자가 포함된 텍스트는 예외가 발생해서 크롤링이 중단된다. 정규식을 사용해서 예외를 처리할 수도 있었지만 결과를 보니 특수문자로 발생하는 에외의 수가 적어서 예외가 발생하면 그 자료는 버리는 것이 더 이득이라는 생각이 들어서 그렇게 진행했다. 모든 텍스트에 정규식을 적용하면 아무래도 속도가 느려질 것같아 약간의 자료를 포기하는 방법을 택했다.
세 번째로는 예외처리다. 처음에는 예외처리를 전부 하지 않았지만 계속해서 예상치도 못한 예외가 발생해서 나중에는 거의 모든 부분에 예외처리를 해주었다. 그래서 속도가 조금 느려지기는 했지만 중간에 멈추고 다시 설정하는 것 보다는 더 편하고 빠르다고 판단하여 전체에 예외처리를 해주었다.
'항해99 > TIL | WIL' 카테고리의 다른 글
| 2023.03.16 (67일) (0) | 2023.03.17 |
|---|---|
| 2023.03.15 (66일) (0) | 2023.03.16 |
| 2023.03.13 (64일) (0) | 2023.03.14 |
| 2023.03.12 (63일) (0) | 2023.03.13 |
| WIL (8주) (0) | 2023.03.12 |