5. Utterance segmentation process


In this folder you will find the Instructions and tools for utterance segmentation and coding - Enter the Transcription Protocol folder, then open the C-unit summary pdf. This document contains specific instructions for utterance segmentation and examples. 

    1. For Bilingual Speakers of Spanish-English or Castellano-Catalan, the following utterance segmentation should be used- see item b and figure below.
    2. See this description on modified C-Units


 Glossary of terms on this page
  • Pro-drop: A linguistic phenomenon in which a subject/subject pronoun is not explicitly stated with a verb. Certain languages are considered to be pro-drop languages (Spanish, Catalan, Portuguese, Italian, Hindi, Swahili, Turkish, etc.)


  • Prepositions: Words that precede a noun or phrase which they modify by expressing some type of relation. For example, some English prepositions are:
    • about, above, across, after, against, among, around, at, before, beside, between, by, down, during, except, for, from, in, into, near, of, off, on, over, through, to, toward, under, up, with  


  • Conjunctions: These are words that link together two or more words or phrases. The conjoined units typically are the same part of speech. In English, common conjunctions are:
    • and, but, or, neither... nor..., so


  • Subordinate clause: Phrases that are dependent (cannot stand alone) and rely on main/matrix clauses.


  • Utterance = Enunciado


Utterance Segmentation: Modified Communication Units (MC-units)

ISSUE: The basic unit for segmenting utterances used in SALT is the communication unit (C-unit; an independent clause and its modifiers, including subordinate clauses). Thus, a sentence like, the boy went running and grabbed the frog, would be segmented as one utterance. Although the equivalent of this sentence in Spanish, el niño estaba corriendo y agarró la rana, could also be segmented as one utterance, doing so would possibly ignore the pro-drop nature of Spanish. Whereas omitting subject nouns or pronouns is typically ungrammatical in English, these can be grammatically dropped in Spanish as the null subject information is encoded in the verb (Bedore, 1999). For instance, the English phrase he jumped, can be grammatically stated in Spanish as: (a) él brincó ("he jumped") including the pronoun él ("he"); or (b) as brincó ("[he] jumped") since the pronoun that is being referred to is able to be deduced by context and morphosyntactic agreement of the verb.

SOLUTION: Modified C-units (MC-units), based on rules originally proposed by Gutiérrez-Clellen and Hofstetter (1994) for Terminable Units in Spanish, are an alternative rule for segmentation that is used for language transcripts contained in the Bilingual Spanish/English Reference databases. MC-units are used because they are better able to (a) account for cross-language differences such as pro-drop in Spanish, and (b) facilitate consistency when transcribing language samples in Spanish and English from the same bilingual speaker. Therefore, segmenting utterances as MC-units is recommended in SALT for bilingual (Spanish-English) samples.

MC-units follow two rules. The first rule, like with standard C-unit segmentation, states that an utterance consists of an independent clause and its modifiers, including subordinated clauses. The second rule states that independent clauses that are joined by a coordinating conjunction are segmented as two separate utterances. MC-unit segmentation is illustrated in Figure 7-3. The first row illustrates subordinated clauses in Spanish and English, which are not segmented as two separate utterances. The subordinating conjunction cuando, is used in Spanish; the subordinating conjunction when, is used in English. The second row illustrates coordinated clauses in Spanish and English, which are therefore segmented into two utterances in each language. The coordinating conjunction y, is used in Spanish; the coordinating conjunction and, is used in English.


Understanding utterance segmentation in Spanish:

What is an Utterance? An utterance is a complete thought expressed by an independent (main) clause and any of its subordinated clauses. For example:

  • English: “The boy was running.”
  • Spanish: “El niño estaba corriendo.”

In this example, both sentences are single utterances because they each contain one independent clause. However, sentences can and do often include more than one utterance. One example of this is sentences that contain coordinate structures. For example:

  • English: “The boy was running and grabbed the frog.”
  • Spanish: “El niño estaba corriendo y agarró la rana.”

In this case, there are two independent clauses that are conjoined using a conjunction ('and' in English, or 'y' in Spanish). Each sentence is composed of two utterances because each of the conjoined sentences is a complete statement. For example, in the Spanish example, the two independent utterances are "El niño estaba corriendo" and "(El niño) agarró la rana". In English, the two utterances are "The boy was running" and "(The boy) grabbed the frog". One thing to note is that when utterances are conjoined in either language, and the subject is the same for each utterance, it is acceptable to omit the second subject. In our example, this can be seen in the English and Spanish examples in which there is no explicit subject 'he'/'él' before the words 'grabbed'/'agarró'.

Understanding MC-units: When working with bilingual (Spanish-English) samples, you should use Modified Communication Units (MC-units) for segmentation to account for syntactic differences between the two languages.

Key Rules:

  1. Basic Rule: An utterance is an independent clause with any of its modifiers, including subordinate clauses. 

    • Example:
      • English: “She was happy when she saw the dog.”
      • Spanish: “Ella estaba feliz cuando vio al perro.”
    • In both languages, this is one utterance because the subordinate clause is not a clause that can be grammatical while existing independently.


       2. Special Rule for Spanish (Pro-Drop)1: In Spanish, the subject or subject pronoun can be dropped. The subject of the verb can usually be inferred because of person (1st, 2nd, 3rd) and number (singular, plural) agreement on the verb. 

    • Example:
      • Spanish: “Él brincó y agarró la rana.”
      • If we drop the subject in the first clause: “__ Brincó y agarró la rana.”


When working with bilinguals and segmenting coordinate structures in either language, always count them as 2 MC-units.


 How to segment for monolingual English speakers

For Monolingual English speakers, reference the following file (under item d.) for rules regarding C-Unit segmentation which differs from the modified C-Units described above


For added information, consult the SALT software guide: https://saltsoftware.com/media/wysiwyg/tranaids/CunitSummary.pdf


Reglas Adicionales para Transcripciones en Español

(Decisiones tomadas el día 8/28/2024; 9/2/2024)

Additional Rules for Utterance Segmentation:


1. Regla del Verbo Auxiliar + Verboide (Gerundio, Participio, Infinitivo)

 Click here to expand...

Cuando falte el verbo auxiliar en el enunciado, pero haya un verboide (como un gerundio, participio, o infinitivo), podemos aplicar el criterio de omisión. Esto significa que podemos separar los enunciados como si el verbo auxiliar estuviera presente, ya que se encuentra implícito en la oración.

Ejemplo:

*PAR: están de picnic una pareja merendando.
*PAR: él ø leyendo.
*PAR: y ella ø haciendo algo.

Si estuviera explícito:

*PAR: están de picnic una pareja merendando.
*PAR: él está leyendo.
*PAR: y ella está haciendo algo.

En este caso, aunque el hablante no mencionó el verbo auxiliar, entendemos que está implícito. Por lo tanto, es seguro separar los enunciados como si el verbo auxiliar estuviera presente.


2. Regla de Entonación y Pausas

 Click here to expand...

Al segmentar los enunciados, es fundamental centrarse en la sintaxis. Sin embargo, si la muestra de lenguaje no contiene verbos (como ocurre en algunos pacientes con afasia no fluente), podemos guiarnos por la entonación y las pausas que hace el hablante.

Veamos el siguiente ejemplo de muestra de lenguaje: https://utexas.box.com/s/zwxcszwk3m1s32w30d0mgd7nvco469pe


Ejemplo:

*PAR: una bandera.
*PAR: un barco.
*PAR: están haciendo señas.
*PAR: un hombre que pesca.
*PAR: &+u un cubo y una pala.
*PAR: y un &+n niño mm jugando con las olas.

En la muestra, hay una pausa significativa entre "una bandera" y "un barco," lo que nos permite segmentarlos como dos enunciados separados. Por otro lado, "un cubo y una pala" no se separa, ya que fue dicho de manera continua. Esto nos indica que deben considerarse como un solo enunciado.


Esta regla nos ayuda a segmentar correctamente cuando la sintaxis no es suficiente, aprovechando las señales que nos da la entonación y las pausas del hablante.


3. Regla de Listas de Objetos Cuando No Hay Verbos y Existen Pausas Muy Marcadas y/o Entonación Muy Marcada

 Click here to expand...

Cuando el hablante describe una lista de objetos sin usar verbos y existen pausas muy marcadas o entonación muy marcada, podemos separar cada objeto como un enunciado independiente. Veamos esta muestra de lenguaje:  https://utexas.box.com/s/18rkfd8bzwtc8mzn5pln801dktvitp71

Ejemplo:

*PAR: un árbol con muchas hojas.
*PAR: un perro.
*PAR: un [/] un niño &+baya eh bañándose.

En este caso, el hablante comenzó con una lista de objetos sin utilizar ningún verbo. Como hay un "cambio de tema" entre cada objeto, podemos separar cada uno como un enunciado distinto. Sin embargo, si el hablante hubiera comenzado su descripción con un verbo como "ver" o "haber," podríamos mantener toda la lista como un solo enunciado en lugar de separarlos. Por ejemplo:

*PAR: veo un árbol con muchas hojas, un perro, un [/] un niño &+baya eh bañándose.
*PAR: hay un árbol con muchas hojas, un perro, un [/] un niño &+baya eh bañándose.


4. Regla de la Frase "O Sea"

 Click here to expand...

La frase "o sea" actúa como un conector explicativo o aclarativo dentro de una oración. Su función es introducir una reformulación, aclaración, o explicación de lo que se acaba de decir. Por esta razón, no se debe separar de la idea principal que le precede, ya que forma parte de un solo enunciado.

Ejemplo:

*PAR: eh se ve la carrera, o sea, el [/] el [/] el coche a la entrada del garaje. (FORMA CORRECTA)

En lugar de:

*PAR: eh se ve la carrera. (FORMA INCORRECTA)
*PAR: o sea, el [/] el [/] el coche a la entrada del garaje. (FORMA INCORRECTA)


5. Regla de la Palabra "Pero" 

 Click here to expand...

La palabra "pero" es una conjunción coordinante que se usa para introducir una idea que contrasta o contradice la información previa. En segmentación de enunciados, la presencia de "pero" indica que se está introduciendo un nuevo pensamiento o una cláusula independiente que se opone o difiere de la primera parte de la oración. Veamos este ejemplo: https://utexas.box.com/s/g4h3jvr3iz3souztoikifb5ejy48w6pn

Ejemplo:

*PAR:  vale, en este lugar hay una [/] una [/] una [//] un árbol muy grande. (FORMA CORRECTA)
*PAR:        pero hoy es de [/] de muchos años. (FORMA CORRECTA)

En lugar de:

*PAR:  vale, en este lugar hay una [/] una [/] una [//] un árbol muy grande, pero hoy es de [/] de muchos años. (FORMA INCORRECTA)

"Pero" marca un cambio en el sentido del discurso, lo que justifica la segmentación en dos enunciados. La información después de "pero" es independiente y está contrastando con la información anterior, lo que lo convierte en un nuevo enunciado completo y separado en la mayoría de las veces. Es necesario tener en cuenta que hay ocasiones en las que el enunciado no se separa, aunque exista la palabra "pero" en el mensaje. Por ejemplo:

*PAR: el pequeño está cogiendo agua, pero más entrado en la arena. (un solo enunciado)

Como podemos ver, el ejemplo anterior sólo muestra un enunciado a pesar de tener la palabra "pero." Esta decisión se tomó porque la segunda parte del enunciado no cuenta con un verbo ("...pero más entrado en la arena"), lo cual la convierte en un solo enunciado (no dos). 

(decisión añadida el 2 de septiembre, 2024)


6. Regla de Abandono de Enunciados vs Revisiones 

 Click here to expand...

En el contexto de la segmentación de muestras de lenguaje, es crucial identificar cuándo un hablante abandona un enunciado y comienza uno nuevo, en lugar de simplemente revisarlo. Revisemos esta muestra (min 0:41 - 1:09): https://utexas.box.com/s/tzso6mpcrrszx1l1mrybuupjcdyut590

Ejemplo:

*PAR: uh veo también el [/] el [/] <el &+tra> [//] el [/] ay el &+ca. (FORMA CORRECTA)
*PAR: no [/] no camión no es eso. (FORMA CORRECTA)

En lugar de:

*PAR: uh veo también el [/] el [/] <el &+tra> [//] el [/] <ay el &+ca> [//] no [/] no camión no es eso. (FORMA INCORRECTA)

Podemos ver que el hablante intenta formular un enunciado, pero lo abandona después de múltiples revisiones ("el [/] el [/] <el &+tra> [//] el [/] ay el &+ca."). El abandono del enunciado se marca por la interrupción abrupta y la incapacidad del hablante para completar la idea inicial. Luego, el hablante inicia un nuevo enunciado con "no [/] no camión no es eso," lo cual refleja un cambio de enfoque para comunicar una idea. Por lo tanto, estos dos enunciados se segmentan como enunciados separados.

El siguiente ejemplo explica la misma idea a pesar de que no contiene un verbo principal en la segunda utterance (se encuentra implícito):

*PAR: detrás hays [: hay] [//] <hay un monte> [//] hay un. (FORMA CORRECTA)
*PAR: no, monte no. (FORMA CORRECTA)


 Sin embargo...

Cuando un hablante abandona en enunciado, introduce un pensamiento distinto y luego regresa al tema original, no se segmentará, ya que la idea principal sigue conectada. En estos casos, se deben añadir códigos de revisión, uno al final del primer enunciado interrumpido (color morado en el ejemplo) y otro que cubra la interrupción (color verde en el ejemplo). Por ejemplo:


*PAR: detrás hays [: hay] [//] <hay un monte> [//] hay un [//]<no, monte no> [//] hay un lago. (FORMA CORRECTA)

*PAR: detrás hays [: hay] [//] <hay un monte> [//] hay un. (FORMA INCORRECTA)
*PAR: no, monte no. (FORMA INCORRECTA)
*PAR: hay un lago. (FORMA INCORRECTA)


Otro ejemplo:

*PAR: es un dibujo en la que se ve mm una [//] <un &+gent> [//] un [//] mm eh <vamos a ver> [//] mm en la que se ve un sitio que es como si fuera un campo. (FORMA CORRECTA)

*PAR: es un dibujo en la que se ve mm una [//] <un &+gent> [//] un mm eh. (FORMA INCORRECTA)

*PAR: vamos a ver. (FORMA INCORRECTA)

*PAR: mm en la que se ve un sitio que es como si fuera un campo. (FORMA INCORRECTA)

(decisión añadida el 2 de septiembre, 2024)


7. Regla de Enunciados Largos 

 Click here to expand...

En la segmentación de enunciados, es crucial aplicar las reglas de forma rigurosa, especialmente cuando nos enfrentamos a enunciados largos que podrían llevar a confusiones. Tomemos el siguiente ejemplo (Min 2:10): https://utexas.box.com/s/tzso6mpcrrszx1l1mrybuupjcdyut590


Ejemplo:

*PAR: <una &+ca> [//] un [//] también veo un [//] una bandera y un perro con el señor que tiene el cometa mm en sus manos &+l liado <con un> [/] mm con un cable. (FORMA CORRECTA)

Aunque este enunciado es extenso y presenta varias revisiones, no debe ser dividido en dos enunciados separados. La razón es que el hablante está construyendo un único enunciado donde menciona una lista de objetos (una bandera y un perro) con descriptores adicionales ("con el señor que tiene el cometa..."). A pesar de que es un enunciado largo y tiene la palabra "y" en la mitad, todo se refiere a un solo objeto directo. Qué es lo que veo? "una bandera y un perro con el señor..."


*PAR: <una &+ca> [//] un [//] también veo un [//] una bandera. (FORMA INCORRECTA)

*PAR:  y un perro con el señor que tiene el cometa mm en sus manos &+l liado <con un> [/] mm con un cable. (FORMA INCORRECTA)

Separar el enunciado podría dar la impresión de que el hablante está cambiando de tema o comenzando un nuevo enunciado, cuando en realidad, es una descripción continua de una escena con múltiples elementos.

(decisión añadida el 2 de septiembre, 2024)


8. Regla de "que" o "uno de los cuales

 Click here to expand...

Cuando segmentamos enunciados, es importante mantener juntas las partes que explican o añaden información al enunciado anterior.

Ejemplo:

*PAR: y en el mar se ve una barca o sí con una pareja, uno de los cuales nos está saludando. (FORMA CORRECTA)


*PAR: y en el mar se ve una barca o sí con una pareja. (FORMA INCORRECTA)

*PAR: uno de los cuales nos está saludando. (FORMA INCORRECTA)


La parte "uno de los cuales nos está saludando" está proporcionando una explicación o un detalle adicional sobre "una pareja". Esta información es una aclaración directa del enunciado anterior, y por lo tanto, debe permanecer unida para mantener la coherencia del mensaje. También aplicaríamos la misma regla si el mensaje tuviera la palabra "que":

*PAR: y en el mar se ve una barca o sí con una pareja que nos está saludando. (FORMA CORRECTA)

(decisión añadida el 2 de septiembre, 2024)


9. Regla de la Frase "Por lo Tanto" 

 Click here to expand...

La expresión "por lo tanto" indica consecuencia y hace parte de las oraciones consecutivas. Por esta razón, este tipo de oraciones siempre serán expresiones subordinadas. Esto significa que una oración que empiece con "por lo tanto" debe ser parte de una conjunción coordinante (coordinating conjunction) y no puede segmentarse aparte de su idea principal.  

Ejemplo:

*PAR: se ve agua, por lo tanto, es el mar. (FORMA CORRECTA)

En lugar de:

*PAR: se ve agua. (FORMA INCORRECTA)
*PAR: por lo tanto, es el mar. (FORMA INCORRECTA)

La misma regla aplica con la palabra "entonces." Minuto 1:05: https://utexas.box.com/s/keuwo75f2wodptg3ey4tt57jn9aer1ho

*PAR: les platico de mis problemas que no puedo hablar bien, entons [: entonces] ellas me apoyan. (FORMA CORRECTA)

En lugar de: 

*PAR: les platico de mis problemas que no puedo hablar bien. (FORMA INCORRECTA)
*PAR: entons [: entonces] ellas me apoyan. (FORMA INCORRECTA)

Puede ayudar sustituir la palabra "entonces" por "por eso" para ver si los dos enunciados siguen relacionados. 

(decisión tomada el 29 de Julio, 2024) - Added "entonces" on 11/07/24 (discussion can be found in dudas de transcripción - date 10/29/24)


10. Regla de la Palabra "Además" 

 Click here to expand...

Cuando segmentamos enunciados, es importante distinguir entre las partes que forman una lista continua de objetos directos y las partes que introducen una idea nueva. Considere los siguientes ejemplos:


Ejemplo:

 *PAR: y detrás de ellos hay una casa eh de dos cuerpos con eh una puerta de garaje abierta y un coche delante de ella, además, unas ventanas y unos árboles de jardín o arbustos de jardín. (FORMA CORRECTA)


*PAR: y detrás de ellos hay una casa eh de dos cuerpos con eh una puerta de garaje abierta y un coche delante de ella. (FORMA INCORRECTA)

*PAR: además, unas ventanas y unos árboles de jardín o arbustos de jardín. (FORMA INCORRECTA)


A pesar de que la palabra "además" nos hace pensar que es una idea nueva que debería separarse, este enunciado sólo cuenta con un sólo verbo "hay..." Por lo tanto, a palabra "además" en este caso, no inicia un enunciado nuevo, sino que continúa la lista de objetos directos. Sin embargo, si después de la palabra "además" hubiera un nuevo verbo (como en el siguiente ejemplo), entonces se separaría en dos enunciados:

*PAR: y detrás de ellos hay una casa eh de dos cuerpos con eh una puerta de garaje abierta y un coche delante de ella. (FORMA CORRECTA)

*PAR: además, hay unas ventanas y unos árboles de jardín o arbustos de jardín. (FORMA CORRECTA)


(decisión añadida el 2 de septiembre, 2024)


SALT Reference Guide

Relevant sections:

Pg. 343 - Subordination Index

Pg. 352 - Tricky scoring examples


 Extra notes that can be ignored for research assistants

The issue of ambiguity arises in Spanish coordinates because there can be multiple, entirely different, unnamed subjects for coordinated verbs that exhibit subject omission (be it due to coordinate subject deletion or pro-drop). For example, in the sentence "Él brincó y agarró una rana", the natural reading is that one person jumped and also grabbed a frog. This can be interpreted as an instance of pro-drop, but the lack of a subject in the second clause is common even in languages without pro-drop. Note that this can be seen in English for the same sentence "He jumped and __ grabbed a frog." Importantly, this type of coordinate subject omission can only happen if the subject is the same across both verbs. For example, if there is a subject change across both verbs in English, both subjects must be explicitly stated (e.g., "He jumped and she grabbed a frog.")


In Spanish, it is a bit different because pro-drop rather than the coordinate subject omission can be an additional mechanism that results in the lack of an explicit subject. However, pro-drop does not naturally occur in all instances of finite verbs that are produced. The rules that govern pro-drop are guided by pragmatic/discourse and morphosyntactic constraints. For this reason, it is likely, though not impossible, that the subject omission of the second subject is referencing a different subject that the first. Spanish speakers will naturally attend to the salience/prominence of topics/subjects in discourse and will explicitly state subjects when a new subject/referent is the subject of a verb. For this reason, it is okay to approach instances of coordinate subject omission with the assumption that the verbs both share a single subject (unless there is an unambiguously different subject according to verb morphology). For instance, if the sentence is "Él brincó y agarré una rana", it is clear that the morphology of the second verb is now unambiguously 1st person singular and cannot be "él". This is important because in this case, it suggests that the coordination is happening higher than TP as the morphology is now different across both verbs. This should be a clear instance in which the coordinated clauses should be viewed as 2 separate units. In English, subject omission in a coordinate structure will never result in two separate units unless the verbs have separate, explicitly stated subjects.


For this reason, it is not clear whether Spanish and English coordinate verb constructions should be unanimously treated differently. While it would potentially make sense to always divide the structures into two separate clause units, it seems as though some syntactic analyses have argued that the coordination occurs under TP and possibly at the VP-level. Carnie (2013) suggests such a claim and would thus argue that both languages should have the structures analyzed as a single c-unit. It seems as though previous segmentation for English samples have continued to segment these cases as single units while the Spanish segmentation consistently coded them as two. This difference will need to be kept in mind for future analyses of utterance count and mean utterance length, as they will have an inverse relationship that uniquely affects each language.


 Previous Segmentation Summary

Previous Segmentation Summary

This was from a previous version of segmentation rules.