Por qué ChatGPT es más caro en español que en inglés

Manoj enjoy

Follow us on

El sistema que establece el coste de la información creada por la IA generativa marca una gran diferencia a la hora de utilizarla entre distintos idiomas

Por qué la API OpenAI es más cara para otros idiomas además del inglés: más allá de las palabras, la codificación de pares de bytes y la codificación Unicode influyen en las disparidades de precios.  (Foto AP/Michael Dwyer)Por qué la API OpenAI es más cara para otros idiomas además del inglés: más allá de las palabras, la codificación de pares de bytes y la codificación Unicode influyen en las disparidades de precios. (Foto AP/Michael Dwyer)

El idioma en el que trabaja una persona. inteligencia artificial genera una alta diferencia de precio entre uno y otro. Lo cual es lo suficientemente significativo como para crear una brecha entre la IA en Inglés y el resto de lenguas, incluidas Español.

El chatbot necesita que el usuario sea preciso con las indicaciones.  (Pexels)Te puede interesar: ChatGPT recomienda desinformación sobre tratamientos contra el cáncer: cómo evitarla

Así lo confirma un estudio realizado por un equipo de científicos de la Universidad de Oxford, que analizó la forma en que empresas como Abierto AI (desarrollador de ChatGPT) y concluyó que el disparidad en el tratamiento de diferentes lenguas surge en la etapa de tokenizaciónmucho antes de que se invoque un modelo.

La investigación, realizada por Aleksandar Petrov, Emanuele La Malfa, Philip HS Torr y Adel Bibi, muestra cómo, por ejemplo, el chino simplificado es el doble de caro que el inglés y el idioma Shan (Birmania), en el otro extremo, 15 veces más.

La frase La frase “hola mundo” tiene dos fichas en inglés y 12 fichas en hindi. (Hacia la ciencia de datos)

Una diferencia en la duración de la tokenización que es un problema porque el API de OpenAI se factura en unidades de 1000 tokens. Entonces, si tiene hasta 15 veces más tokens en un texto comparable, el costo de procesamiento será 15 veces mayor.

See also  Niña asesinada a puñaladas en Croydon: ¿Quiénes son los padres de la niña asesinada a puñaladas en Croydon?

Te puede interesar: Todo lo que necesitas saber sobre ChatGPT para empresas

En el caso de una IA en español, se trata de una cincuenta% más caro que en inglés según el estudio titulado “Los tokenizadores de modelos lingüísticos provocan una brecha entre los idiomas”.

Te puede interesar: OpenAI lanza ChatGPT Enterprise, un ‘chatbot’ dedicado a empresas y centrado en la seguridad y la privacidad

¿Qué son las fichas?

La cantidad de tokens para la frase La cantidad de tokens para la frase “hola mundo” en inglés, japonés e hindi. (Hacia la ciencia de datos)

El fichas son la unidad de medida que representa el costo computacional de acceder a un modelo de lenguaje a través de una API, que es un fragmento de código que permite que diferentes aplicaciones se comuniquen entre sí para compartir información y funcionalidad.

Te puede interesar: Snapchat transformará los selfies con inteligencia artificial

Este sistema de tokenización significa que los modelos utilizados en idiomas distintos del inglés son mucho más caros de usar y entrenar. La razón de fondo es que el chino o el español tienen estructuras diferentes, más complejas gramaticalmente y con un mayor número de caracteres requeridos, lo que provoca una mayor tasa de tokenización.

De hecho, los modelos a nivel de caracteres y a nivel de bytes también exhiben más de 4 veces la diferencia en la longitud de codificación para algunos pares de idiomas.

Quizás te interese: Este robot es capaz de pilotar un avión con solo leer el manual

Y tener que utilizar más potencia informática conduce a un trato injusto para algunas comunidades lingüísticas con respecto al costo de acceso a servicios comerciales, el tiempo de procesamiento y la latencia; así como la cantidad de contenido que se puede proporcionar como contexto a los modelos.

See also  Egipto abrirá su frontera con la Franja de Gaza para permitir la entrada de ayuda humanitaria

OpenAI tiene un tokenizador de modelo de lenguaje GPT-3 en el que podrás comprobar las diferencias entre el inglés y otros idiomas.

Una expresión como “tu afecto” Son solo 2 fichas en inglés, pero 8 en chino simplificado. Esto sucede a pesar de que la expresión en chino necesita menos caracteres que en inglés.

En español también hay menos caracteres que en inglés, pero el coste sube hasta 4 fichas.

Comparación de tokenización de dos oraciones en inglés y español.  (Captura de pantalla)Comparación de tokenización de dos oraciones en inglés y español. (Captura de pantalla)

La propia OpenAi aclara que por regla general 1 token equivale a 4 caracteres en inglés y 100 tokens equivalen a unas 75 palabras, pero advierte que esta regla no se puede trasladar a otros idiomas.

Una situación ventajosa

Según el estudio, la ventajosa situación del inglés es también un reflejo de los conjuntos de datos con los que las empresas entrenan su inteligencia artificial.

Los mismos problemas se reproducen con diferentes formas de cuantificar costos como el conteo de bits o caracteres, y aparentemente ningún idioma puede superar la practicidad del inglés, que seguiría presentando menores costos por su mayor compresibilidad en menos tokens.

Además, se concluye que el problema no radica en la forma en que se ha monetizado, sino que es una limitación de la tecnología y los modelos base considerados para el entrenamiento de IA.

Categories: Trending
Source: frv.edu.vn

Madhuri Shetty
Manoj Gadtaula

Manoj Gadtaula is a young Indian man from Mangalore who is constantly on the lookout for new things and loves to explore. Madhuri has a great passion for helping others and motivating people. She researched the careers, biographies, lifestyles, and net worths of celebrities..

Leave a comment

Demo
Demo 2