Tokenizar tiene dos significados principales:
1. Tokenización en el contexto de Blockchain:
• Es el proceso de convertir un activo del mundo real en un token digital en una blockchain. El token representa derechos de propiedad o acceso al activo y puede ser fácilmente intercambiado o transferido. Esto se puede aplicar a diversos activos como bienes raíces, arte, valores, etc.
2. Tokenización en el contexto del Procesamiento del Lenguaje Natural (PLN):
• En PLN, la tokenización se refiere a dividir un texto en unidades más pequeñas llamadas tokens. Estos tokens pueden ser palabras, signos de puntuación o incluso caracteres individuales. Este es el primer paso en muchas tareas de PLN como el análisis de sentimientos, la traducción automática y el resumen de texto.
Ejemplos de tokenización:
• Blockchain: Tokenizar una propiedad inmobiliaria significa convertir la propiedad en un token digital que puede ser comprado y vendido en una blockchain.
• PLN: La siguiente oración se puede tokenizar de la siguiente manera:
«La casa es grande y roja.»
• Tokens: «La», «casa», «es», «grande», «y», «roja», «.»
Herramientas para tokenizar:
• Existen varias herramientas para tokenizar, tanto para blockchain como para PLN. Algunas de las herramientas más populares incluyen:
• Blockchain:
• Tokeny
• Securitize
• Polymath
• PLN:
• NLTK (Python)
• spaCy (Python)
• Stanford CoreNLP (Java)
Recursos adicionales:
• Tokenización en Blockchain:
• Tokenización en PLN:
• https://www.nltk.org/book/ch04.html
• https://spacy.io/usage/linguistic-features
Tokenizar