본문으로 이동

spaCy

위키백과, 우리 모두의 백과사전.

SpaCy
저장소
웹사이트spacy.io 위키데이터에서 편집하기

spaCy(/spˈs/ spay-SEE)는 파이썬사이썬 프로그래밍 언어로 작성된 고급 자연어 처리오픈 소스 소프트웨어 라이브러리이다.[1][2] 이 라이브러리는 MIT 허가서에 따라 게시되며 주요 개발자는 소프트웨어 회사 익스플로전(Explosion)의 창립자인 매튜 호니발(Matthew Honnibal)과 이네스 몬타니(Ines Montani)이다.

교육 및 연구에 널리 사용되는 NLTK와 달리 spaCy는 생산용 소프트웨어 제공에 중점을 둔다.[3][4] spaCy는 자체 기계 학습 라이브러리 Thinc를 통해 TensorFlow, PyTorch 또는 MXNet과 같은 인기 있는 기계 학습 라이브러리로 훈련된 통계 모델을 연결할 수 있는 딥 러닝 워크플로우도 지원한다.[5][6] Thinc을 백엔드로 사용하는 spaCy는 품사 태그 지정, 종속성 구문 분석, 텍스트 분류 및 명명된 엔터티 인식(NER)을 위한 컨볼루션 신경망 모델을 제공한다. 이러한 작업을 수행하기 위해 사전 구축된 통계 신경망 모델은 영어, 포르투갈어, 스페인어, 러시아어, 중국어를 포함한 23개 언어로 제공되며 다국어 NER 모델도 있다. 65개 이상의 언어에 대한 토큰화에 대한 추가 지원을 통해 사용자는 자신의 데이터 세트에서 사용자 정의 모델을 교육할 수도 있다.[7]

각주

[편집]
  1. Choi et al. (2015). It Depends: Dependency Parser Comparison Using A Web-based Evaluation Tool.
  2. “Google's new artificial intelligence can't understand these sentences. Can you?”. 《Washington Post》. 2016년 12월 18일에 확인함. 
  3. “Facts & Figures - spaCy”. 《spacy.io》 (영어). 2020년 4월 4일에 확인함. 
  4. Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). “Multidisciplinary instruction with the Natural Language Toolkit” (PDF). 《Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL》: 62. doi:10.3115/1627306.1627317. ISBN 9781932432145. S2CID 16932735. 
  5. “PyTorch, TensorFlow & MXNet”. 《thinc.ai》. 2020년 4월 4일에 확인함. 
  6. “explosion/thinc”. 《GitHub》. 2016년 12월 30일에 확인함. 
  7. “Models & Languages | spaCy Usage Documentation”. 《spacy.io》. 2020년 3월 10일에 확인함. 

외부 링크

[편집]