Tokenizar tiene dos significados principales:
1. Tokenización en el contexto de Blockchain:
• Es el proceso de convertir un activo del mundo real en un token digital en una blockchain. El token representa derechos de propiedad o acceso al activo y puede ser fácilmente intercambiado o transferido. Esto se puede aplicar a diversos activos como bienes raíces, arte, valores, etc.
2. Tokenización en el contexto del Procesamiento del Lenguaje Natural (PLN):
• En PLN, la tokenización se refiere a dividir un texto en unidades más pequeñas llamadas tokens. Estos tokens pueden ser palabras, signos de puntuación o incluso caracteres individuales. Este es el primer paso en muchas tareas de PLN como el análisis de sentimientos, la traducción automática y el resumen de texto.
Ejemplos de tokenización:
• Blockchain: Tokenizar una propiedad inmobiliaria significa convertir la propiedad en un token digital que puede ser comprado y vendido en una blockchain.
• PLN: La siguiente oración se puede tokenizar de la siguiente manera:
“La casa es grande y roja.”
• Tokens: “La”, “casa”, “es”, “grande”, “y”, “roja”, “.”
Herramientas para tokenizar:
• Existen varias herramientas para tokenizar, tanto para blockchain como para PLN. Algunas de las herramientas más populares incluyen:
• Blockchain:
• Tokeny
• Securitize
• Polymath
• PLN:
• NLTK (Python)
• spaCy (Python)
• Stanford CoreNLP (Java)
Recursos adicionales:
• Tokenización en Blockchain:
• Tokenización en PLN:
• https://www.nltk.org/book/ch04.html
• https://spacy.io/usage/linguistic-features