Algoritmo para la clasificación de aspectos de lenguaje natural basados en web semántica.

Álvarez Lasso, Francisco Bolívar

Algoritmo para la clasificación de aspectos de lenguaje natural basados en web semántica. Francisco Bolívar Álvarez, Lenyn Santiago Mayo Pazuña - 109 páginas ; 30 cm.

Incluye CD-Rom.

Proyecto (Ingeniero en Informática y Sistemas Computacionales); Bravo, Silvia ; Dir.

1. Información básica. 2. Diseño investigativo. 3. Marco Teórico 4. Metodología 5. Análisis y discusión de los resultados 6. Presupuesto y análisis de impacto 7. Conclusiones y recomendaciones

LOS PROYECTOS DE INVESTIGACIÓN DE GRADO SON DE USO EXCLUSIVO PARA LA SALA DE LECTURA.

El presente proyecto de investigación trata sobre el diseño de un algoritmo para clasificar los aspectos de lenguaje natural basados en web semántica. Para ello, se realizó una revisión de la literatura de algoritmos de búsqueda, esta revisión dio como resultado la necesidad de proponer nuevas alternativas de búsqueda para mejorar los resultados de los mismos. Se observó, además, que en la actualidad, existen pocas propuestas que resuelvan este problema empleando herramientas de inteligencia artificial de forma eficiente. Por lo tanto, este trabajo propone emplear los algoritmos Ramdon Forrest y K-Nearest Neighbours (k-NN) en búsquedas web empleando datos basados en lenguaje natural. Para el desarrollo del algoritmo propuesto se empleó Python como lenguaje de programación para la creación y Prototipado del algoritmo de clasificación propuesto. Con este fin, se empleó la herramienta Spyder de la suite Anaconda y la librería Pandas, Sklearn en donde se encuentran los algoritmos de clasificación Random Forest Classifier y KNeighbors Classifier para Random Forest y Knn respectivamente. Random Forest consta de bosques aleatorios formados por un conjunto de árboles de clasificación que se eligen de forma aleatoria construida con N datos de la muestra con reemplazamiento. K-NN se basa simplemente en ´recordar´ todos los ejemplos que se vieron en la etapa de entrenamiento. Por lo cual, cuando un nuevo dato se presenta al sistema de aprendizaje, este se clasifica según el comportamiento del dato más cercano, la principal dificultad de este método consiste en determinar el valor k, ya que si toma un valor grande se corre el riesgo de hacer la clasificación de acuerdo a la mayoría. El proceso experimental empleó cuatro Dataset extraídos de la web, las mismas son GBvideos, que contiene los comentarios sobre música de YouTube, vg1, que corresponde a las ventas de videos juegos, zomato que muestra los comentarios sobre restaurantes y AppStore que contiene los comentarios de las aplicaciones móviles. La cantidad de instancias analizadas corresponde a 57956 instancias. El análisis dio como resultado una tasa de predicción de la clasificación en Random Forest 0.7 o 70% y k-NN 0.6 o 60%. Para evaluar el algoritmo propuesto se empleó Auc Roc que obtuvo 0.7 de exactitud. Con este análisis se concluye que el uso de un algoritmo basado en Random Forest es el más confiable y preciso para la clasificación del lenguaje natural. Además, este algoritmo podría ser considerado como apoyo para estudiantes a fin de que se establezca en proyectos futuros.




ALGORITMO
WEB SEMÁNTICA
EXPRESIÓN CORPORAL

PROYECTO 004 A4731ag

Misión / Visión

X

Misión

La UTC forma profesionales humanistas y de calidad, capaces de generar conocimiento científico a través de la investigación y vinculación, para que contribuyan a la transformación social, tecnológica y económica del país.

Visión

La UTC será una universidad innovadora, científica y eficiente, comprometida con la calidad y pertinencia para alcanzar una sociedad equitativa, inclusiva y colaborativa.

Servicios

X

Los usuarios deberán registrar sus datos personales en la ventanilla de atención para efectos de registro y acceso al servicio de las bibliotecas.

  • Préstamo interno, departamental e interdepartamental.
  • Préstamo externo.
  • Préstamo interbibliotecario.
  • Consulta y referencia.
  • Consulta especializada.
  • Expedición de constancias de no adeudamiento a través del sistema SIABUC.
  • Acceso a bases de datos de nivel científico en línea.
  • Acceso al repositorio digital en el Web Site de la institución.
  • Servicio de Internet y Bibliotecas Virtuales.
  • Servicio de copiado y digitalización.
  • Sala de lectura.

Misión / Visión

X

Dentro de las iniciativas del personal bibliotecario de la UTC, se ha diseñado algunas estrategias para ayudar a la comunidad universitaria en este período de transición dónde los usos de métodos virtuales son indispensables para el desarrollo de la actividad académica.

Horario de atención de lunes a viernes de 8:00 a 17:00

Matriz: biblioteca@utc.edu.ec
Salache: biblioteca.caren@utc.edu.ec
La Maná: biblioteca.lamana@utc.edu.ec
Pujilí: biblioteca.pujili@utc.edu.ec