Roadmap update

Documents chargés dans Chroma
Retrait mlflow.db
2026-02-05 13:35:56 +01:00 · 2026-02-05 11:54:40 +01:00 · 2026-02-05 11:12:28 +01:00 · 2026-02-05 11:11:19 +01:00 · 2026-02-05 10:43:13 +01:00
13 changed files with 105 additions and 2 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -1,5 +1,10 @@
 .venv/
 .env
 mlflow.db
 # Par sécurité
-documents_projet/
+documents_projet/
 chroma_db/
 # Python
 __pycache__/
--- a/AgentReact/pycache/agent.cpython-312.pyc
+++ b/AgentReact/pycache/agent.cpython-312.pyc
--- a/AgentReact/utils/pycache/nodes.cpython-312.pyc
+++ b/AgentReact/utils/pycache/nodes.cpython-312.pyc
--- a/AgentReact/utils/pycache/state.cpython-312.pyc
+++ b/AgentReact/utils/pycache/state.cpython-312.pyc
--- a/AgentReact/utils/pycache/tools.cpython-312.pyc
+++ b/AgentReact/utils/pycache/tools.cpython-312.pyc
--- a/RAG/init.py
+++ b/RAG/init.py
@@ -0,0 +1,51 @@
 # Ce fichier vise à préparer les documents dans le RAG.
 # Une fois lancé, une base de données vectorielle locale sera générée
 from pathlib import Path
 from langchain_community.document_loaders import DirectoryLoader, TextLoader # Charge les docs
 from langchain_text_splitters import RecursiveCharacterTextSplitter # Divise le texte en chunks
 from langchain_huggingface import HuggingFaceEmbeddings # Tokénize le texte
 from langchain_chroma import Chroma # BDD, serait PG vector en prod'
 print("=== GENERATION DE LA BDD LOCALE ===")
 base_dir = Path(__file__).resolve().parent.parent # Dossier parent, où sont les données
 # Chargement de tous les documents txt du dossier docs/
 try:
    loader =  DirectoryLoader(
    path= base_dir.as_posix() + "/documents_projet/",
    glob="**/*.txt",
    loader_cls=TextLoader,
    show_progress=True)
    docs = loader.load()
 except FileNotFoundError:
    print("ERREUR: Le dossier \"documents_projet\" n'est pas présent ! Il faut l'ajouter à la racine du projet avant de lancer ce script.")
    import sys
    sys.exit(1) # J'arrête ici
 print(f"Documents chargés: {len(docs)}")
 # Maintenant que j'ai chargé les documents, je vais les découper en chunks 
 # (taille d'un chunk = 500 caractères, chevauchement = 100 caractères)
 text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000/2, chunk_overlap=200/2)
 chunks = text_splitter.split_documents(docs) # Découpage des documents
 print(f"Ces documents ont été divisés en {len(chunks)} chunks de texte.")
 print("Exemple de chunk : ")
 print("===")
 print(chunks[-1])
 print("===")
 # Création du modèle d'embeddings 
 # https://docs.langchain.com/oss/python/integrations/text_embedding/huggingfacehub
 # https://huggingface.co/jinaai/jina-clip-v2
 embeddings = HuggingFaceEmbeddings(model_name="jinaai/jina-embeddings-v3", model_kwargs={"trust_remote_code": True})
 # Stockage des embeddings dans ChromaDB dans un dossier local "chroma_db"
 vectorstore = Chroma.from_documents(documents=chunks,embedding=embeddings, persist_directory=base_dir.as_posix()+"/chroma_db/",) # https://docs.langchain.com/oss/python/integrations/vectorstores/chroma
 print(f"Documents chargés et base de données créée à {base_dir.as_posix()+"/chroma_db/"} !")
--- a/agent.png
+++ b/agent.png
--- a/imgs/projet.png
+++ b/imgs/projet.png
--- a/imgs/workflow.excalidraw
+++ b/imgs/workflow.excalidraw
--- a/imgs/workflow.png
+++ b/imgs/workflow.png
--- a/mlflow.db
+++ b/mlflow.db
--- a/readme.md
+++ b/readme.md
@@ -3,4 +3,24 @@
 **Les documents liés au projet ne sont pas inclus dans ce repo, il faut les ajouter à la racine dans "documents_projet/" !**
 ## Workflow
-![image](workflow.png)
+![image](imgs/workflow.png)
 ## Mise en place
 La première étape est d'installer le `venv` Python:
 ```
 python -m venv .venv
 source .venv/bin/activate
 pip install -r requirements.txt
 ```
 Puis de définir les variables d'env de l'agent
 ```
 cp AgentReact/.env.template AgentReact/.env
 nano AgentReact/.env
 ```
 Une fois le dossier **documents_projet** ajouté à la racine, il est possible de générer la base de données vectorielle
 ```
 python RAG/init.py
 ```
--- a/roadmap.md
+++ b/roadmap.md
@@ -0,0 +1,27 @@
 # Roadmap
 > Plan d'action du développement
 ![image](imgs/projet.png)
 ## Préparation du projet
 - [X] Initialisation du projet, template d'agent préparé
 - [X] Première ébauche du Workflow
 - [X] Préparation de la roadmap
 - [X] Mise en place du système de **RAG**
 - [X] Lecture des documents et mise en base de données vectorielle
 ## Mise en place de l'agent
 - [ ] Préparation du `State`
 - [ ] Développement des outils de l'agent
 - [ ] Préparation des nœuds
 - [ ] Branchement des nœuds entre-eux
 ## Amélioration de l'agent
 - [ ] Sauvegarde de l'état de l'agent
 - [ ] Système de redémarrage après un arrêt
 - [ ] Détection de *prompt injection*
 - [ ] Génération d'un PDF en sortie du système
 ## Autres pistes
 - [ ] Enregistrement des sources dans le `state` **?**
 - [ ] Deuxième agent de validation de la mise en page du rapport ?
Author	SHA1	Message	Date
LJ5O	7c92d4fc31	Roadmap update	2026-02-05 13:35:56 +01:00
LJ5O	33f54e8e30	Documents chargés dans Chroma	2026-02-05 11:54:40 +01:00
LJ5O	6795fdc7fa	Retrait mlflow.db	2026-02-05 11:12:28 +01:00
LJ5O	de1745b670	Roadmap	2026-02-05 11:11:19 +01:00
LJ5O	3a14bd3f2b	Python cache	2026-02-05 10:43:13 +01:00