본문 바로가기

개발 이야기/파이썬 개발

데이터 과학을 위해 '더 개선된' 최신 필수 파이썬 툴 6가지

728x90

데이터 분석을 마스터하려면, 또는 단순히 사용하려고 해도 필요한 것은 결국 파이썬이다. 파이썬은 배우기 쉬우며 지원의 폭도 넓고 깊다. 또한, 거의 모든 데이터 과학 라이브러리와 머신 러닝 프레임워크가 파이썬 인터페이스를 지원한다.

지난 몇 개월 동안 파이썬을 위한 여러 데이터 과학 프로젝트에서 주요 기능 업데이트가 포함된 새로운 버전이 나왔다. 실제 수치 계산을 위한 프로젝트도 있고, 이와 같은 작업에 최적화된 빠른 코드를 더 쉽게 작성할 수 있는 프로젝트도 있다. 데이터 과학을 위한 필수 파이썬 툴 6가지를 정리했다.

 

사이파이 1.7

빠르고 강력한 수학 라이브러리를 원하는 파이썬 사용자에겐 넘파이(Numpy)가 있지만 넘파이 자체는 구체적인 작업에 초점을 두지 않는다. 그래서 필요한 것이 사이파이(SciPy)다. 넘파이를 사용해 선형 대수부터 통계 작업, 신호 처리에 이르기까지 일반적인 수학 및 과학 프로그래밍 작업을 위한 라이브러리를 제공한다.

 

넘바 0.53.0

넘바(Numba)를 이용하면 LLVM 컴파일러 프레임워크를 통해 파이썬 함수나 모듈을 어셈블리 언어로 컴파일할 수 있다. 파이썬 프로그램을 실행할 때마다 즉석에서 할 수 있고 사전에 컴파일할 수도 있다. 그런 측면에서 넘바는 사이썬(Cython)과 비슷하지만 다루기 더 편리한 경우가 많다. 반면 사이썬을 사용해 가속화된 코드는 서드파티에 배포하기가 더 쉽다는 장점이 있다.

 

사이썬 3.0(베타)

사이썬(Cython)은 파이썬 코드를 매우 빠르게 실행되는 C 코드로 변환한다. 이 변환은 무거운 계산이 필요하거나 조밀한 루프에서 실행되는 코드에서 가장 유용한데, 두 경우 모두 공학, 과학, 머신 러닝을 위한 파이썬 프로그램에서 널리 사용된다.

 

대스크 2021.07.0

처리 성능의 비용이 어느 때보다 저렴하다고는 해도, 여러 CPU 코어와 물리적 프로세서 또는 계산 노드로 작업을 분할해 성능을 최대한 활용하는 것은 간단치 않은 일이다.

대스크는 파이썬 작업을 받아서 여러 시스템에 걸쳐 효율적으로 스케줄링한다. 대스크 작업을 실행하는 데 사용하는 구문은 파이썬의 다른 작업에 사용하는 구문과 사실상 같으므로 기존 코드를 조금만 손보면 대스크를 활용할 수 있다.

 

백스 4.30

백스(Vaex)를 사용하면 큰 테이블 데이터 집합에서 지연 연산을 수행할 수 있다(기본적으로 넘파이 또는 판다스의 데이터프레임). 크다는 것은 수십억 개의 행을 의미하며, 여기서 모든 연산을 최대한 효율적으로, 데이터 복사 없이, 최소한의 메모리 사용량으로, 내장된 시각화 툴을 사용해 수행한다.

 

인텔 SDC

인텔의 확장 가능한 데이터프레임 컴파일러(Scalable Dataframe Compiler, SDC)는 이전 하이 퍼포먼스 애널리틱스 툴킷(High Performance Analytics Toolkit, HPAT)에서 이름이 바뀐 것으로, 클러스터에서 데이터 분석과 머신 러닝의 속도를 높이는 실험적 프로젝트다. 오픈 MPI 프로젝트의 mpirun 유틸리티를 사용해 파이썬 하위 집합을 여러 클러스터로 자동으로 병렬화하는 코드로 컴파일한다.

(출처: https://www.itworld.co.kr/t/61023/%EA%B0%9C%EB%B0%9C%EC%9E%90/202304  )

 

 

(추가1)

오픈소스 소식과 최신 IT뉴스 소식을 모아보고 검색도 할 수 있는 앱이 잇습니다.

'IT뉴스모아' 라는 앱인데 하기에서 다운로드 가능합니다.

:=> https://play.google.com/store/apps/details?id=com.opensupport.ITNewsMoa 

 

IT뉴스모아 (최신 IT와 테크 뉴스를 한번에 모아서 보자!) - Google Play 앱

최신 IT와 테크 뉴스를 한번에 모아서 보자!

play.google.com

 

 

 

그럼,

    공유합니다.