AI Systems AIStackToolsProductionClaude Code

Lo stack AI che uso davvero in produzione

Un tour completo degli strumenti di intelligenza artificiale che vengono utilizzati attivamente in Client Work e nei nostri prodotti: cosa si è guadagnato il suo posto, cosa è stato abbandonato e quale logica tiene insieme lo stack.

Wojciech Łuszczyński

GTM Architect & Growth Operator · Insights · 22 maggio 2026

TL;DR · Key insights

Lo stack è composto da quattro livelli: Ragionamento, Esecuzione, Ricerca e CRM/Dati. Ogni livello ha un compito ben preciso.
Ciò che è stato cancellato è importante quanto la lista di mantenimento: Zapier, Notion AI e diversi strumenti di arricchimento non sono sopravvissuti al lavoro di produzione reale.
Il test operativo per ogni strumento di IA: produce un lavoro migliore o si limita a spostare il lavoro altrove?

Esiste una versione di questo articolo che non sto scrivendo: 47 strumenti, tabella di confronto e valutazione da uno a dieci. Avete già letto questo articolo. Non è servito.

Questa è l’altra versione: ogni strumento di IA attualmente in esecuzione nel mio stack di produzione, quale lavoro svolge e perché merita quel posto. Altrettanto importante: cosa è stato buttato fuori. Questo elenco è di solito più utile dell’elenco di mantenimento.

Una premessa: distinguo tra strumenti che creano un lavoro migliore e strumenti che spostano il lavoro. La prima categoria rimane. La seconda brucia tempo e dà la sensazione di produttività senza migliorare il sistema.

Lo stack per strati

Strato 1: Ragionamento

Utilizzo Claude Sonnet / Opus per lavori diagnostici complessi: analisi ICP, architettura GTM, sintesi di posizionamento. In altre parole, ogni volta che si devono rispettare diversi vincoli in competizione tra loro e alla fine è necessaria una decisione difendibile, non solo una probabile frase successiva.

Non uso Claude per tutto. Testi di routine, semplici riscritture, rapide domande di ricerca: non c’è bisogno del livello di ragionamento completo per questo. Usare Opus per un oggetto è come usare una chiave dinamometrica per appendere quadri.

Il test è: *Se sì, non lo uso. Se il compito richiede una vera considerazione: compromessi, segnali contrastanti, un’argomentazione coerente da input sparsi, allora questo è il livello giusto.

Strato 2: Esecuzione

Il codice Claude esegue lo stack di agenti. Pipeline di ricerca, cicli di arricchimento, bozze di contenuto dai dati di audit, classificazione CRM: questo è ciò che viene eseguito qui. È lo strumento con la maggiore leva, non perché sia il più intelligente, ma perché collega il livello di intelligence con il prodotto di lavoro effettivo.

La configurazione decisiva: CLAUDE.md per cliente, strumenti MCP per l’accesso ai dati, competenze per le sottoattività denominate. Descrivo in dettaglio lo stack in uscita in questo articolo, e come funziona negli impegni con i clienti qui. In breve: il codice Claude con un buon contesto di operatori genera un lavoro che prima richiedeva un team.

Uso Cursor per il codice che ha davvero bisogno di vivere nel repo. MCP Server, Cloudflare Worker, funzioni nei propri prodotti: Cursor si occupa del livello di editing. Claude Code pensa ed esegue il lavoro degli agenti; Cursor si integra con IDE e Diff Review.

Tutto ciò non è ridondante. Claude Code è un operatore. Cursore è un editor. Lavori diversi, contesti diversi.

Livello 3: Ricerca

Exa MCP è per la ricerca sul web in tempo reale nelle esecuzioni ad agente. Exa è costruito per l’uso di LLM: ricerca semantica, risposte pulite, meno drammi per i crawler. Brave Search è stato sostituito nel mio stack perché la qualità è stabilmente migliore con Company Research.

Il Browser automation MCP basato su Playwright è per i siti che bloccano lo scraping: Pagine aziendali di LinkedIn, alcune pagine di prezzi di SaaS, segnali di Glassdoor. Non si tratta di un crawler di massa. È per le poche pagine di alto valore per impegno in cui la ricerca statica non è sufficiente.

Uso Perplexity per una rapida ricerca di base su mercati, settori o argomenti tecnici quando ho bisogno di un punto di partenza sintetico piuttosto che di risultati di ricerca grezzi. Lo tratto come un generatore di briefing, non come una fonte. Tutto ciò che è importante viene verificato.

Livello 4: CRM e dati

HubSpot MCP è per le operazioni di CRM: lettura dei record di contatti e aziende, classificazione in base ai criteri ICP, etichettatura dei problemi di qualità dei dati, generazione di payload di aggiornamento. In passato il lavoro del CRM era manuale e incoerente. Con MCP nel loop, la logica di classificazione è coerente e verificabile.

GA4 / Amplitude non sono strumenti di intelligenza artificiale, ma fonti di dati su cui Claude ragiona. Estraggo i report o utilizzo le API, inserisco i dati strutturati nel livello di ragionamento e pongo domande all’operatore: “Ecco 90 giorni di acquisizione per canale e conversione per coorte: qual è la diagnosi?”. Questo funziona se i dati sono puliti.

Cosa è stato buttato via

Zapier è stato sostituito da MCP Server. Zapier è ottimo se si desidera collegare le applicazioni senza codice. Ma ogni flusso di lavoro complesso alla fine diventava un problema di manutenzione. I server MCP costano di più da configurare, ma sono versionabili, ispezionabili e non si rompono quando un flusso di autenticazione cambia.

Notion AI non ha mai giustificato il suo slot. L’output era generico. Il contesto era effettivamente limitato alla pagina corrente, quindi non poteva ragionare sulla mia reale struttura di conoscenza. Scrivo in Notion. Penso con Claude.

Per il mio caso d’uso, Apollo/Clearbit Enrichment è stato sostituito da Agent Research. Con un grande team di vendita e un volume elevato, i crediti di arricchimento possono avere senso. Per la profondità e la qualità di cui ho bisogno nel lavoro con i clienti, lo stack di agenti fornisce input migliori a un costo inferiore.

GPT-4 / Gemini non sono attualmente attivi nello stack. Non perché non siano validi, ma perché lo stack è coerente. Modelli aggiuntivi senza un lavoro specifico generano uno sforzo decisionale senza una migliore qualità dell’output.

La logica operativa

Lo stack non è un elenco di strumenti. È una serie di decisioni sul posto dell’intelligenza nel flusso di lavoro e sulla responsabilità di ogni livello.

Livello di ragionamento: detiene il giudizio, diagnostica il problema, stabilisce la logica.
Execution Layer: esegue il lavoro, produce output, mantiene il contesto.
Livello di ricerca: porta i dati del mondo reale agli altri livelli.
Livello dei dati: memorizza ciò che è accaduto e il suo significato.

Ogni strumento merita il suo posto se svolge uno di questi compiti meglio dell’alternativa. Se il risultato peggiora, la manutenzione aumenta o se esiste un’opzione migliore, viene cancellato.

Lo stack cambierà. Parte di questo elenco non esisterà più tra sei mesi. Non importa. La logica operativa rimane.

Se state costruendo uno stack di intelligenza artificiale per GTM e avete bisogno di un secondo parere su ciò che dovrebbe rimanere e ciò che dovrebbe andare, prenotate una chiamata.