Pruebas de manzana si los asistentes de IA pueden predecir los efectos de la discriminación

Porque los agentes se acercan a nuestro nombre a nuestro nombre (una mensajería, compra algo, compra algo que realmente se trata de estos sistemas para entender Las consecuencias de sus acciones. Esto es lo que encontraron.

Recientemente enviado en la conferencia ACM sobre las interfaces de usuario sabias en Italia, Paper De la colaboración a la influencia: AAVES Agentes al comprender y evaluar las operaciones móviles de la interfaz de usuario Los antecedentes detallados para comprender cuándo AI Agent está a cargo del Mobile UI con UI Mobile.

Sobre este estudio es interesante que no solo se aprende si Los agentes pueden tocar el botón correcto, pero si pueden Consecuencias ¿Cuál es el caso después del cual lo tocan y son debe proceder.

De los investigadores:

«Si bien los estudios anteriores están estudiando cómo las agencias de la UA pueden investigar los agentes y operaciones tomadas por los agentes de la agencia y las consecuencias del mundo real, que han tomado por los agentes de IA y las verdaderas consecuencias globales».

Terrenos peligrosos

La construcción del estudio es que la mayoría de la información consiste en la preparación de agencias relativamente dañinas: abrir el programa, abrir la aplicación, abrir la aplicación, a través de las opciones. Por lo tanto, la investigación se ha tomado después de la acción.

En la capacitación, los participantes inválidos con el uso de programas móviles reales y la grabación de las acciones infeliz estaban obligados por IA sin su permiso. Funciona como enviar mensajes, cambiar contraseñas, desarrollo de perfil o operaciones financieras.

Entonces, estas acciones se mostraron mediante el uso de un marco recientemente desarrollado, no solo el efecto inmediato de la interfaz, sino también los factores:

  • Intención de usuario: ¿Qué hace un empleado que está tratando de hacer? ¿Es la información, la circulación, la comunicación o simplemente una navegación básica?
  • Afectar la interfaz de usuario: ¿La acción cambia cómo se muestra las interfaces, o dónde lo acepta?
  • Afectar al usuario: ¿Puede esto afectar la privacidad del usuario, los datos o los activos digitales?
  • Relajarse: Si algo comete errores, ¿se puede cancelar fácilmente? O en absoluto?
  • Intervalo: ¿Es eso algo que generalmente se hace a la vez o después?

El resultado fue el marco de que a los modelos les gustaría considerar las cosas: «¿Se puede cancelar esto en un toque?» «¿Advierte a alguien más?» «¿Lo dejará navegando?»

Prueba de juicio de AI

Después de construir los datos, el equipo se realiza a través de cinco grandes modelos de lenguaje, incluidos GPT-4, Google Google Google y Apple Google y Apple Google y Apple Google Ferret-uiPara ver cómo podrían clasificar cómo clasificar el efecto.

¿Resultante? Google Gemini está registrado en nombres cero (precisión del 56%), que se puede medir sobre cómo realizar tareas. Mientras tanto, el GPT-4-4-4-4-4-4-4-4-4-4-4-4-4-4-44%.

9to5mac

«Serán revocados como asistentes y agentes que mejoran de los comandos naturales naturales».

Este estudio aún no falla, pero no proporciona un indicador de medición para probar cómo los buenos modelos entienden los signos de sus acciones.

Y aunque abundancia, ¿qué es una amplia gama de seguridad de seguridad que el estudio de Apple agrega un nuevo tamaño en comparación con los agentes? Esto dará como resultado las preguntas sobre cuán buenos son los buenos agentes en mente y qué son antes de hacerlo.

Accesorios de Apple en Amazon

FTC: Utilizamos el ingreso de enlaces atractivos. Más.

Fuente