VT2021 GPT fiche - Revision history

Oumaima.Hajji: /* Résumé */

2022-01-15T12:32:31Z

Résumé

← Older revision		Revision as of 12:32, 15 January 2022
Line 5:		Line 5:
	= '''Résumé''' =		= '''Résumé''' =
	GPT est un réseau de neurones basé sur l'architecture "Transformers". Ce réseau se manifeste comme une nouvelle approche dans le domaine TAL (Traitement automatique des langues) qui succède à d'autres modèles beaucoup plus coûteux et moins performants.		GPT est un réseau de neurones basé sur l'architecture "Transformers". Ce réseau se manifeste comme une nouvelle approche dans le domaine TAL (Traitement automatique des langues) qui succède à d'autres modèles beaucoup plus coûteux et moins performants.

	La première série GPT (GPT-1, GPT-2, et GPT-3) est le fruit de recherches et de développement de la société OpenAI qui a introduit ce modèle dans le domaine TAL et qui a ouvert la porte à d'autres contributeurs, notamment EleutherAI et le modèle GPT-J.		La première série GPT (GPT-1, GPT-2, et GPT-3) est le fruit de recherches et de développement de la société OpenAI qui a introduit ce modèle dans le domaine TAL et qui a ouvert la porte à d'autres contributeurs, notamment EleutherAI et le modèle GPT-J.

Oumaima.Hajji: /* Résumé */

2022-01-15T12:32:07Z

Résumé

← Older revision		Revision as of 12:32, 15 January 2022
Line 5:		Line 5:
	= '''Résumé''' =		= '''Résumé''' =
	GPT est un réseau de neurones basé sur l'architecture "Transformers". Ce réseau se manifeste comme une nouvelle approche dans le domaine TAL (Traitement automatique des langues) qui succède à d'autres modèles beaucoup plus coûteux et moins performants.		GPT est un réseau de neurones basé sur l'architecture "Transformers". Ce réseau se manifeste comme une nouvelle approche dans le domaine TAL (Traitement automatique des langues) qui succède à d'autres modèles beaucoup plus coûteux et moins performants.

	La première série GPT (GPT-1, GPT-2, et GPT-3) est le fruit de recherches et de développement de la société OpenAI qui a introduit ce modèle dans le domaine TAL et qui a ouvert la porte à d'autres contributeurs, notamment EleutherAI et le modèle GPT-J.		La première série GPT (GPT-1, GPT-2, et GPT-3) est le fruit de recherches et de développement de la société OpenAI qui a introduit ce modèle dans le domaine TAL et qui a ouvert la porte à d'autres contributeurs, notamment EleutherAI et le modèle GPT-J.

Oumaima.Hajji at 12:31, 15 January 2022

2022-01-15T12:31:50Z

Oumaima.Hajji at 12:30, 15 January 2022

2022-01-15T12:30:49Z

@@ Line 2: / Line 2: @@
 * AGUIAR Mathilde ([[mathilde.aguiar@etu.univ-grenoble-alpes.fr]])
 * HAJJI Oumaima ([[oumaima.hajji@etu.univ-grenoble-alpes.fr]])
 = '''Introduction au Traitement automatique des Langues (TAL)''' =

Oumaima.Hajji: /* Le plus récent, GPT-3 */

2022-01-03T11:11:03Z

Le plus récent, GPT-3

← Older revision		Revision as of 11:11, 3 January 2022
Line 132:		Line 132:
	[[File:ConfigGPT3.png\| Figure 9: informations sur les différents modèles de GPT-3]]		[[File:ConfigGPT3.png\| Figure 9: informations sur les différents modèles de GPT-3]]

	Figure 9: informations sur les différents modèles de GPT-3 [10]		Figure 9: informations sur les différents modèles de GPT-3 [9]

	=='''Limitations'''==		=='''Limitations'''==

	Malgré le fait que GPT-3 atteigne d'excellents scores sur de nombreuses tâches, le modèle possède certaines limites. Tout d’abord, il est plutôt faible sur les tâches de synthèse de textes, il fait beaucoup de répétitions et même des contradictions.		Malgré le fait que GPT-3 atteigne d'excellents scores sur de nombreuses tâches, le modèle possède certaines limites. Tout d’abord, il est plutôt faible sur les tâches de synthèse de textes, il fait beaucoup de répétitions et même des contradictions.
	Un autre problème récurrent chez les modèles de deep learning est le biais, et GPT-3 n’y échappe pas non plus. Certains utilisateurs ont pu constater des biais racistes ou misogynes comme par exemple l’association du mot “Islam” avec “terrorisme” qui revient souvent dans les phrases générées par le modèle [11].		Un autre problème récurrent chez les modèles de deep learning est le biais, et GPT-3 n’y échappe pas non plus. Certains utilisateurs ont pu constater des biais racistes ou misogynes comme par exemple l’association du mot “Islam” avec “terrorisme” qui revient souvent dans les phrases générées par le modèle [10].

	=='''Autres modèles issus de GPT-3'''==		=='''Autres modèles issus de GPT-3'''==

Oumaima.Hajji: /* Performance */

2022-01-03T11:10:38Z

Performance

← Older revision		Revision as of 11:10, 3 January 2022
Line 99:		Line 99:
	[[File:Gptj-2.PNG\|Figure 7: Comparaison des performances de GPT-J et des autres modèles ]]		[[File:Gptj-2.PNG\|Figure 7: Comparaison des performances de GPT-J et des autres modèles ]]

	Figure 7: Comparaison des performances de GPT-J et des autres modèles [9]		Figure 7: Comparaison des performances de GPT-J et des autres modèles [8]

	= '''Le plus récent, GPT-3''' =		= '''Le plus récent, GPT-3''' =

Oumaima.Hajji: /* Bibliographie */

2022-01-03T11:10:19Z

Bibliographie

← Older revision		Revision as of 11:10, 3 January 2022
Line 162:		Line 162:

	= '''Bibliographie''' =		= '''Bibliographie''' =
			[1] Attention Is All You Need: https://arxiv.org/abs/1706.03762

			[2] The true names/sizes of the 4 GPT-2 models (Issue): https://github.com/openai/gpt-2/issues/209

			[3] Language Models are Unsupervised Multitask Learners : https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

			[4] Le projet sur github pour plus d’informations: https://github.com/kingoflolz/mesh-transformer-jax/

			[5] Documentation de GPT-J sur Huggingface: https://huggingface.co/docs/transformers/model_doc/gptj

			[6] Documentation de la pile: https://pile.eleuther.ai/

			[7] The Pile: An 800GB Dataset of Diverse Text for Language Modeling:
			https://arxiv.org/pdf/2101.00027.pdf

			[8] GPT-J-6B: 6B JAX-Based Transformer (Aran Komatsuzaki): https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/

			[9] Language Models are Few-Shot Learners: https://arxiv.org/pdf/2005.14165.pdf

			[10] How Biased is GPT-3: https://medium.com/fair-bytes/how-biased-is-gpt-3-5b2b91f1177

Oumaima.Hajji: /* Le plus récent, GPT-3 */

2022-01-03T10:58:42Z

Le plus récent, GPT-3

← Older revision		Revision as of 10:58, 3 January 2022
Line 132:		Line 132:
	[[File:ConfigGPT3.png\| Figure 9: informations sur les différents modèles de GPT-3]]		[[File:ConfigGPT3.png\| Figure 9: informations sur les différents modèles de GPT-3]]

	Figure 9: informations sur les différents modèles de GPT-3 [4]		Figure 9: informations sur les différents modèles de GPT-3 [10]

	=='''Limitations'''==		=='''Limitations'''==

	Malgré le fait que GPT-3 atteigne d'excellents scores sur de nombreuses tâches, le modèle possède certaines limites. Tout d’abord, il est plutôt faible sur les tâches de synthèse de textes, il fait beaucoup de répétitions et même des contradictions.		Malgré le fait que GPT-3 atteigne d'excellents scores sur de nombreuses tâches, le modèle possède certaines limites. Tout d’abord, il est plutôt faible sur les tâches de synthèse de textes, il fait beaucoup de répétitions et même des contradictions.
	Un autre problème récurrent chez les modèles de deep learning est le biais, et GPT-3 n’y échappe pas non plus. Certains utilisateurs ont pu constater des biais racistes ou misogynes comme par exemple l’association du mot “Islam” avec “terrorisme” qui revient souvent dans les phrases générées par le modèle [5].		Un autre problème récurrent chez les modèles de deep learning est le biais, et GPT-3 n’y échappe pas non plus. Certains utilisateurs ont pu constater des biais racistes ou misogynes comme par exemple l’association du mot “Islam” avec “terrorisme” qui revient souvent dans les phrases générées par le modèle [11].

	=='''Autres modèles issus de GPT-3'''==		=='''Autres modèles issus de GPT-3'''==

Oumaima.Hajji: /* Le modèle open-source, GPT-J */

2022-01-03T10:58:17Z

Le modèle open-source, GPT-J

Oumaima.Hajji: /* Le plus récent, GPT-3 */

2022-01-03T10:56:26Z

Le plus récent, GPT-3

← Older revision		Revision as of 10:56, 3 January 2022
Line 132:		Line 132:
	[[File:ConfigGPT3.png\| Figure 9: informations sur les différents modèles de GPT-3]]		[[File:ConfigGPT3.png\| Figure 9: informations sur les différents modèles de GPT-3]]

	Figure 9: informations sur les différents modèles de GPT-3		Figure 9: informations sur les différents modèles de GPT-3 [4]

	=='''Limitations'''==		=='''Limitations'''==

	Malgré le fait que GPT-3 atteigne d'excellents scores sur de nombreuses tâches, le modèle possède certaines limites. Tout d’abord, il est plutôt faible sur les tâches de synthèse de textes, il fait beaucoup de répétitions et même des contradictions.		Malgré le fait que GPT-3 atteigne d'excellents scores sur de nombreuses tâches, le modèle possède certaines limites. Tout d’abord, il est plutôt faible sur les tâches de synthèse de textes, il fait beaucoup de répétitions et même des contradictions.
	Un autre problème récurrent chez les modèles de deep learning est le biais, et GPT-3 n’y échappe pas non plus. Certains utilisateurs ont pu constater des biais racistes ou misogynes comme par exemple l’association du mot “Islam” avec “terrorisme” qui revient souvent dans les phrases générées par le modèle.		Un autre problème récurrent chez les modèles de deep learning est le biais, et GPT-3 n’y échappe pas non plus. Certains utilisateurs ont pu constater des biais racistes ou misogynes comme par exemple l’association du mot “Islam” avec “terrorisme” qui revient souvent dans les phrases générées par le modèle [5].

	=='''Autres modèles issus de GPT-3'''==		=='''Autres modèles issus de GPT-3'''==

← Older revision		Revision as of 12:31, 15 January 2022
Line 5:		Line 5:
	= '''Résumé''' =		= '''Résumé''' =
	GPT est un réseau de neurones basé sur l'architecture "Transformers". Ce réseau se manifeste comme une nouvelle approche dans le domaine TAL (Traitement automatique des langues) qui succède à d'autres modèles beaucoup plus coûteux et moins performants.		GPT est un réseau de neurones basé sur l'architecture "Transformers". Ce réseau se manifeste comme une nouvelle approche dans le domaine TAL (Traitement automatique des langues) qui succède à d'autres modèles beaucoup plus coûteux et moins performants.

	La première série GPT (GPT-1, GPT-2, et GPT-3) est le fruit de recherches et de développement de la société OpenAI qui a introduit ce modèle dans le domaine TAL et qui a ouvert la porte à d'autres contributeurs, notamment EleutherAI et le modèle GPT-J.		La première série GPT (GPT-1, GPT-2, et GPT-3) est le fruit de recherches et de développement de la société OpenAI qui a introduit ce modèle dans le domaine TAL et qui a ouvert la porte à d'autres contributeurs, notamment EleutherAI et le modèle GPT-J.

	= '''Mots Clés''' =		= '''Mots Clés''' =
	'''GPT''': GPT, Generative Pre-trained Transformer, est un réseau de neurones basé sur l’architecture “Transformers”.		'''GPT''': GPT, Generative Pre-trained Transformer, est un réseau de neurones basé sur l’architecture “Transformers”.

	'''TAL''': TAL est l’ensemble des techniques informatiques mises en œuvre pour traiter le langage naturel (oral ou écrit) par une machine.		'''TAL''': TAL est l’ensemble des techniques informatiques mises en œuvre pour traiter le langage naturel (oral ou écrit) par une machine.

	'''Transformer''': est un modèle d'apprentissage profond utilisé dans le domaine TAL qui facilite la parallélisation lors du traitement des données.		'''Transformer''': est un modèle d'apprentissage profond utilisé dans le domaine TAL qui facilite la parallélisation lors du traitement des données.

	= '''Abstract''' =		= '''Abstract''' =
	GPT is a network of neurons that is based on the "Transformers" architecture. It's a new approach to natural language processing that aims to succeed old models that are more costly and less efficient.		GPT is a network of neurons that is based on the "Transformers" architecture. It's a new approach to natural language processing that aims to succeed old models that are more costly and less efficient.

	The first series GPT (GPT-1, GPT-2, & GPT-3) is the result of an enormous amount of research ad development done by OpenAI. It's thanks to this series that the doors opened to other contributors to advance the field of NLP, especially EleutherAI and the model GPT-J.		The first series GPT (GPT-1, GPT-2, & GPT-3) is the result of an enormous amount of research ad development done by OpenAI. It's thanks to this series that the doors opened to other contributors to advance the field of NLP, especially EleutherAI and the model GPT-J.

	= '''Keywords''' =		= '''Keywords''' =
	'''GPT''': GPT, Generative Pre-trained Transformer, is a network of neurons that is based on the "Transformers" architecture and used in the fields of natural language processing.		'''GPT''': GPT, Generative Pre-trained Transformer, is a network of neurons that is based on the "Transformers" architecture and used in the fields of natural language processing.

	'''NLP''': NLP, or Natural Language Processing, is an array of techniques used to process and analyze natural language (either written or spoken) by a machine.		'''NLP''': NLP, or Natural Language Processing, is an array of techniques used to process and analyze natural language (either written or spoken) by a machine.

	'''Transformer''': It's a deep learning model that adopts the mechanism of self-attention and differentially weighs the significance of each part of the input data.		'''Transformer''': It's a deep learning model that adopts the mechanism of self-attention and differentially weighs the significance of each part of the input data.

← Older revision		Revision as of 10:58, 3 January 2022
Line 73:		Line 73:
	= '''Le modèle open-source, GPT-J''' =		= '''Le modèle open-source, GPT-J''' =
	=='''Un mot sur GPT-J'''==		=='''Un mot sur GPT-J'''==
	C’est un modèle de 6B paramètres utilisant l’approche transformer pour générer du texte. C’est un projet Open Source de Eleuther.ai, publié sur github[*] par Ben Wang and Aran Komatsuzaki. GPT-J a été entraîné avec la dataset pile de Eleuther.ai.		C’est un modèle de 6B paramètres utilisant l’approche transformer pour générer du texte. C’est un projet Open Source de Eleuther.ai, publié sur github[4] par Ben Wang and Aran Komatsuzaki. GPT-J a été entraîné avec la dataset pile de Eleuther.ai [5].

	=='''Le dataset Pile'''==		=='''Le dataset Pile'''==

	Cette dataset (825 GB) respecte les principes d’une bonne dataset dont on a parlé dans la partie GPT-2. En effet, elle contient des données diversifiée qui couvrent plusieurs domaines ce qui la rend la meilleure dataset pour entraîner un modèle général et pour pouvoir exécuter des différentes tâches. </br>		Cette dataset (825 GB) respecte les principes d’une bonne dataset dont on a parlé dans la partie GPT-2. En effet, elle contient des données diversifiée qui couvrent plusieurs domaines ce qui la rend la meilleure dataset pour entraîner un modèle général et pour pouvoir exécuter des différentes tâches [6]. </br>
	Elle se compose de 22 sous datasets qui rentrent dans des différents domaines. Les documents d’une dataset peuvent être revus plusieurs fois ‘epochs’ durant un ‘epoch’ sur la dataset entière. Par exemple, puisque Wikipedia est considérée comme une source des documents de bonne qualité, son ‘epoch’ est vu 3 fois plus que d’autres datasets.		Elle se compose de 22 sous datasets qui rentrent dans des différents domaines. Les documents d’une dataset peuvent être revus plusieurs fois ‘epochs’ durant un ‘epoch’ sur la dataset entière. Par exemple, puisque Wikipedia est considérée comme une source des documents de bonne qualité, son ‘epoch’ est vu 3 fois plus que d’autres datasets.

	[[File:Gptj-1.PNG\|Figure 5: Les sous datasets de la Pile]]		[[File:Gptj-1.PNG\|Figure 5: Les sous datasets de la Pile]]

	Figure 5: Les sous datasets de la Pile		Figure 5: Les sous datasets de la Pile [7]

	=='''Utilisation du modèle'''==		=='''Utilisation du modèle'''==

	GPT-J a été particulièrement développé pour améliorer la génération des textes suivant les instructions données. En fournissant une ‘prompt’ en entrée, GPT-J renvoie un texte en respectant les paramètres donnés.		GPT-J a été particulièrement développé pour améliorer la génération des textes suivant les instructions données. En fournissant une ‘prompt’ en entrée, GPT-J renvoie un texte en respectant les paramètres donnés.
	Il répond bien à des prompts de différents types, par exemple :		Il répond bien à des prompts de différents types, par exemple [8]:

	[[File:Gptj-3.PNG\|Figure 6: exemple de 'prompt' donnée en entrée à GPT-J]]		[[File:Gptj-3.PNG\|Figure 6: exemple de 'prompt' donnée en entrée à GPT-J]]
Line 99:		Line 99:
	[[File:Gptj-2.PNG\|Figure 7: Comparaison des performances de GPT-J et des autres modèles ]]		[[File:Gptj-2.PNG\|Figure 7: Comparaison des performances de GPT-J et des autres modèles ]]

	Figure 7: Comparaison des performances de GPT-J et des autres modèles		Figure 7: Comparaison des performances de GPT-J et des autres modèles [9]

	= '''Le plus récent, GPT-3''' =		= '''Le plus récent, GPT-3''' =