Explosion AI представила релиз 3.0 NLP библиотеки spaCy
Explosion AI представила релиз свободной библиотеки spaCy с реализацией алгоритмов обработки текста на естественном языке (NLP, Natural Language Processing). На практике spaCy может применяться для построения автоответчиков, ботов, классификаторов текста и различных диалоговых систем, определяющих смысл фраз. Библиотека написана на языке Python c элементами на Cython, расширении Python, допускающем прямой вызов функций на языке Си. Код проекта распространяется под лицензией MIT. Языковые модели подготовлены для 58 языков.
spaCy рассчитана на предоставление постоянного API, не привязанного к используемым алгоритмам и готового для применения в реальных продуктах. Для обработки информации библиотека использует самые свежие достижения в области NLP и наиболее эффективный из имеющихся алгоритмов. В случае появления более эффективного алгоритма библиотека переводится на него, но такой переход не отражается на API и приложениях. Особенностью spaCy также является архитектура, рассчитанная на обработку документов целиком, без предварительной обработки в препроцессорах, разбивающих документ на фразы. Модели предлагаются в двух вариантах - для достижения максимальной производительности и наибольшей точности.
spaCy v3.0 features all new transformer-based pipelines that bring spaCy’s accuracy right up to the current state-of-the-art. You can use any pretrained transformer to train your own pipelines, and even share one transformer between multiple components with multi-task learning. Training is now fully configurable and extensible, and you can define your own custom models using PyTorch, TensorFlow and other frameworks. The new spaCy projects system lets you describe whole end-to-end workflows in a single file, giving you an easy path from prototype to production, and making it easy to clone and adapt best-practice projects for your own use cases.