4.2 Utterance segmentation process (transcribers)

4.2 Utterance segmentation process (transcribers)


In this folder you will find the Instructions and tools for utterance segmentation and coding - Enter the Transcription Protocol folder, then open the C-unit summary pdf. This document contains specific instructions for utterance segmentation and examples. 

  1. For Bilingual Speakers of Spanish-English or Castellano-Catalan, the following utterance segmentation should be used- see item b and figure below.

  2. See this description on modified C-Units

 

  • Pro-drop: A linguistic phenomenon in which a subject/subject pronoun is not explicitly stated with a verb. Certain languages are considered to be pro-drop languages (Spanish, Catalan, Portuguese, Italian, Hindi, Swahili, Turkish, etc.)

 

  • Prepositions: Words that precede a noun or phrase which they modify by expressing some type of relation. For example, some English prepositions are:

    • about, above, across, after, against, among, around, at, before, beside, between, by, down, during, except, for, from, in, into, near, of, off, on, over, through, to, toward, under, up, with  

 

  • Conjunctions: These are words that link together two or more words or phrases. The conjoined units typically are the same part of speech. In English, common conjunctions are:

    • and, but, or, neither... nor..., so

 

  • Subordinate clause: Phrases that are dependent (cannot stand alone) and rely on main/matrix clauses.

 

  • Utterance = Enunciado

 

Utterance Segmentation: Modified Communication Units (MC-units)

ISSUE: The basic unit for segmenting utterances used in SALT is the communication unit (C-unit; an independent clause and its modifiers, including subordinate clauses). Thus, a sentence like, the boy went running and grabbed the frog, would be segmented as one utterance. Although the equivalent of this sentence in Spanish, el niño estaba corriendo y agarró la rana, could also be segmented as one utterance, doing so would possibly ignore the pro-drop nature of Spanish. Whereas omitting subject nouns or pronouns is typically ungrammatical in English, these can be grammatically dropped in Spanish as the null subject information is encoded in the verb (Bedore, 1999). For instance, the English phrase he jumped, can be grammatically stated in Spanish as: (a) él brincó ("he jumped") including the pronoun él ("he"); or (b) as brincó ("[he] jumped") since the pronoun that is being referred to is able to be deduced by context and morphosyntactic agreement of the verb.

SOLUTION: Modified C-units (MC-units), based on rules originally proposed by Gutiérrez-Clellen and Hofstetter (1994) for Terminable Units in Spanish, are an alternative rule for segmentation that is used for language transcripts contained in the Bilingual Spanish/English Reference databases. MC-units are used because they are better able to (a) account for cross-language differences such as pro-drop in Spanish, and (b) facilitate consistency when transcribing language samples in Spanish and English from the same bilingual speaker. Therefore, segmenting utterances as MC-units is recommended in SALT for bilingual (Spanish-English) samples.

MC-units follow two rules. The first rule, like with standard C-unit segmentation, states that an utterance consists of an independent clause and its modifiers, including subordinated clauses. The second rule states that independent clauses that are joined by a coordinating conjunction are segmented as two separate utterances. MC-unit segmentation is illustrated in Figure 7-3. The first row illustrates subordinated clauses in Spanish and English, which are not segmented as two separate utterances. The subordinating conjunction cuando, is used in Spanish; the subordinating conjunction when, is used in English. The second row illustrates coordinated clauses in Spanish and English, which are therefore segmented into two utterances in each language. The coordinating conjunction y, is used in Spanish; the coordinating conjunction and, is used in English.


Understanding utterance segmentation in Spanish:

What is an Utterance? An utterance is a complete thought expressed by an independent (main) clause and any of its subordinated clauses. For example:

  • English: “The boy was running.”

  • Spanish: “El niño estaba corriendo.”

In this example, both sentences are single utterances because they each contain one independent clause. However, sentences can and do often include more than one utterance. One example of this is sentences that contain coordinate structures. For example:

  • English: “The boy was running and grabbed the frog.”

  • Spanish: “El niño estaba corriendo y agarró la rana.”

In this case, there are two independent clauses that are conjoined using a conjunction ('and' in English, or 'y' in Spanish). Each sentence is composed of two utterances because each of the conjoined sentences is a complete statement. For example, in the Spanish example, the two independent utterances are "El niño estaba corriendo" and "(El niño) agarró la rana". In English, the two utterances are "The boy was running" and "(The boy) grabbed the frog". One thing to note is that when utterances are conjoined in either language, and the subject is the same for each utterance, it is acceptable to omit the second subject. In our example, this can be seen in the English and Spanish examples in which there is no explicit subject 'he'/'él' before the words 'grabbed'/'agarró'.

Understanding MC-units: When working with bilingual (Spanish-English) samples, you should use Modified Communication Units (MC-units) for segmentation to account for syntactic differences between the two languages.

Key Rules:

  1. Basic Rule: An utterance is an independent clause with any of its modifiers, including subordinate clauses. 

    • Example:

      • English: “She was happy when she saw the dog.”

      • Spanish: “Ella estaba feliz cuando vio al perro.”

    • In both languages, this is one utterance because the subordinate clause is not a clause that can be grammatical while existing independently.

 

       2. Special Rule for Spanish (Pro-Drop)1: In Spanish, the subject or subject pronoun can be dropped. The subject of the verb can usually be inferred because of person (1st, 2nd, 3rd) and number (singular, plural) agreement on the verb. 

  • Example:

    • Spanish: “Él brincó y agarró la rana.”

    • If we drop the subject in the first clause: “__ Brincó y agarró la rana.”

 

When working with bilinguals and segmenting coordinate structures in either language, always count them as 2 MC-units.

 

For Monolingual English speakers, reference the following file (under item d.) for rules regarding C-Unit segmentation which differs from the modified C-Units described above

 

For added information, consult the SALT software guide: https://saltsoftware.com/media/wysiwyg/tranaids/CunitSummary.pdf

 

Reglas Adicionales para Transcripciones en Español

(Decisiones tomadas el día 8/28/2024; 9/2/2024)

Additional Rules for Utterance Segmentation:

 

1. Regla del Verbo Auxiliar + Verboide (Gerundio, Participio, Infinitivo)

Cuando falte el verbo auxiliar en el enunciado, pero haya un verboide (como un gerundio, participio, o infinitivo), podemos aplicar el criterio de omisión. Esto significa que podemos separar los enunciados como si el verbo auxiliar estuviera presente, ya que se encuentra implícito en la oración.

Ejemplo:

*PAR: están de picnic una pareja merendando.
*PAR: él ø leyendo.
*PAR: y ella ø haciendo algo.

Si estuviera explícito:

*PAR: están de picnic una pareja merendando.
*PAR: él está leyendo.
*PAR: y ella está haciendo algo.

En este caso, aunque el hablante no mencionó el verbo auxiliar, entendemos que está implícito. Por lo tanto, es seguro separar los enunciados como si el verbo auxiliar estuviera presente.

Decisión añadida el 3/6/2025:

Sin embargo, es importante tener en cuenta de que esto se hace únicamente cuando falte el verbo auxiliar. Si existe un enunciado en el que falte el verbo auxiliar + el sustantivo, no se debe separar y, por lo tanto, quedaría una lista de acciones en un solo enunciado. Por ejemplo:

*PAR: él está leyendo y disfrutando de la playa. (FORMA CORRECTA)

*PAR: él está leyendo. (FORMA INCORRECTA)

*PAR: y disfrutando de la playa. (FORMA INCORRECTA) → Esta oración es incorrecta porque aparte del verbo auxiliar, también hace falta un sustantivo.

 

2. Regla de Entonación y Pausas

Al segmentar los enunciados, es fundamental centrarse en la sintaxis. Sin embargo, si la muestra de lenguaje no contiene verbos (como ocurre en algunos pacientes con afasia no fluente), podemos guiarnos por la entonación y las pausas que hace el hablante.

Veamos el siguiente ejemplo de muestra de lenguaje: https://utexas.box.com/s/zwxcszwk3m1s32w30d0mgd7nvco469pe

 

Ejemplo:

*PAR: una bandera.
*PAR: un barco.
*PAR: están haciendo señas.
*PAR: un hombre que pesca.
*PAR: &+u un cubo y una pala.
*PAR: y un &+n niño mm jugando con las olas.

En la muestra, hay una pausa significativa entre "una bandera" y "un barco," lo que nos permite segmentarlos como dos enunciados separados. Por otro lado, "un cubo y una pala" no se separa, ya que fue dicho de manera continua. Esto nos indica que deben considerarse como un solo enunciado.


Esta regla nos ayuda a segmentar correctamente cuando la sintaxis no es suficiente, aprovechando las señales que nos da la entonación y las pausas del hablante.

 

3. Regla de Listas de Objetos Cuando No Hay Verbos y Existen Pausas Muy Marcadas y/o Entonación Muy Marcada

Cuando el hablante describe una lista de objetos sin usar verbos y existen pausas muy marcadas o entonación muy marcada, podemos separar cada objeto como un enunciado independiente. Veamos esta muestra de lenguaje:  https://utexas.box.com/s/18rkfd8bzwtc8mzn5pln801dktvitp71, https://utexas.box.com/s/6s2ip7p9qixxrwvdn399p8k2dcr88wxq

Ejemplo:

*PAR: un árbol con muchas hojas.
*PAR: un perro.
*PAR: un [/] un niño &+baya eh bañándose.

En este caso, el hablante comenzó con una lista de objetos sin utilizar ningún verbo. Como hay un "cambio de tema" entre cada objeto, podemos separar cada uno como un enunciado distinto. Sin embargo, si el hablante hubiera comenzado su descripción con un verbo como "ver" o "haber," podríamos mantener toda la lista como un solo enunciado en lugar de separarlos. Por ejemplo:

*PAR: veo un árbol con muchas hojas, un perro, un [/] un niño &+baya eh bañándose.
*PAR: hay un árbol con muchas hojas, un perro, un [/] un niño &+baya eh bañándose.

Decisión 20240212 Si es una lista de acciones también es posible que se deba escribir en 1 enunciado. Por ejemplo:

Ejemplo (Min 0:16 https://utexas.box.com/s/4ug67dfkniralzp75af7lyl311psh2a3 ):

*PAR: otros se dedican <a [/] a coger sus> [//] a llevar sus animales o sus hijos y pasear, ir a la mar, eh descansar, leer, vale?

El ejemplo anterior no se puede separar porque la idea principal es “otros se dedican a” y sus complementos son “ir a pasear, ir a la mar, descansar, leer.”

 

4. Regla de la Frase "O Sea"

La frase "o sea" actúa como un conector explicativo o aclarativo dentro de una oración. Su función es introducir una reformulación, aclaración, o explicación de lo que se acaba de decir. Por esta razón, no se debe separar de la idea principal que le precede, ya que forma parte de un solo enunciado.

Ejemplo:

*PAR: eh se ve la carrera, o sea, el [/] el [/] el coche a la entrada del garaje. (FORMA CORRECTA)

En lugar de:

*PAR: eh se ve la carrera. (FORMA INCORRECTA)
*PAR: o sea, el [/] el [/] el coche a la entrada del garaje. (FORMA INCORRECTA)

 

*See Rows 9-10 in Table below*

#

Example

Connector

Rule

Split?

Segmentation

Subordination → Rule 1 → No split

1

Dice que viene

Complementizer — 2nd clause depends on dice

Rule 1

No split

Dice que viene.

2

favor mirarlo cuando puedan

Subordinator temporal

Rule 1

No split

favor mirarlo cuando puedan.

Coordination, NP only (no 2nd finite clause) → Rule 1 → No split

3

No quiere sopa sino pozole

sino + noun phrase — no 2nd finite verb

Rule 1 (1 clause only)

No split

No quiere sopa sino pozole.

4

Quiere sopa pero pozole también

pero + noun phrase — no 2nd finite verb

Rule 1 (1 clause only)

No split

Quiere sopa pero pozole también.

Coordination, 2 finite clauses → Rule 2 → Split

5

Quiere sopa pero no tiene hambre

pero — 2 independent clauses

Rule 2

SPLIT

Quiere sopa / pero no tiene hambre.

6

…yo creo que no es el mar sino debe ser un océano

sino — 2 independent clauses

Rule 2

SPLIT

…yo creo que no es el mar / sino debe ser un océano.

7

No quiere sopa sino que le traigan pozole

sino que — coordinator; "que" is part of the conjunction, same structure as [6]

Rule 2

SPLIT

No quiere sopa / sino que le traigan pozole.

8

…yo creo que no es el mar sino que debe ser un océano

sino que — same conjunction as [7], same structure as [6]

Rule 2

SPLIT

…yo creo que no es el mar / sino que debe ser un océano.

Discourse marker → neither rule → No split

9

…saliéndose…, o sea, van saliendo

o sea — reformulation marker, not a conjunction

Neither

No split

…saliéndose…, o sea, van saliendo.

10

…jugando…, o sea que, van saliendo

o sea (que) — "que" part of marker, same as [9]

Neither

No split

…jugando…, o sea (que), van saliendo.

 

5. Regla de la Palabras "Pero" y “Sino”

*For Pero and Sino, see rows 3-8*

Regla 1:  OP + subordinada = 1 utterance

Regla 2:  2 cláusulas independientes unidas por una conjunción coordinante = 2 utterances

#

Example

Connector

Rule

Split?

Segmentation

Subordination → Rule 1 → No split

1

Dice que viene

Complementizer — 2nd clause depends on dice

Rule 1

No split

Dice que viene.

2

favor mirarlo cuando puedan

Subordinator temporal

Rule 1

No split

favor mirarlo cuando puedan.

Coordination, NP only (no 2nd finite clause) → Rule 1 → No split

3

No quiere sopa sino pozole

sino + noun phrase — no 2nd finite verb

Rule 1 (1 clause only)

No split

No quiere sopa sino pozole.

4

Quiere sopa pero pozole también

pero + noun phrase — no 2nd finite verb

Rule 1 (1 clause only)

No split

Quiere sopa pero pozole también.

Coordination, 2 finite clauses → Rule 2 → Split

5

Quiere sopa pero no tiene hambre

pero — 2 independent clauses

Rule 2

SPLIT

Quiere sopa / pero no tiene hambre.

6

…yo creo que no es el mar sino debe ser un océano

sino — 2 independent clauses

Rule 2

SPLIT

…yo creo que no es el mar / sino debe ser un océano.

7

No quiere sopa sino que le traigan pozole

sino que — coordinator; "que" is part of the conjunction, same structure as [6]

Rule 2

SPLIT

No quiere sopa / sino que le traigan pozole.

8

…yo creo que no es el mar sino que debe ser un océano

sino que — same conjunction as [7], same structure as [6]

Rule 2

SPLIT

…yo creo que no es el mar / sino que debe ser un océano.

Discourse marker → neither rule → No split

9

…saliéndose…, o sea, van saliendo

o sea — reformulation marker, not a conjunction

Neither

No split

…saliéndose…, o sea, van saliendo.

10

…jugando…, o sea que, van saliendo

o sea (que) — "que" part of marker, same as [9]

Neither

No split

…jugando…, o sea (que), van saliendo.

Nota clave:  "que" por sí solo no determina la regla. Lo que importa es la función del conector completo: sino / sino que = coordinación (Regla 2); dice que = subordinación (Regla 1); o sea (que) = marcador discursivo (ninguna regla).

 

6. Regla de Abandono de Enunciados vs Revisiones 

En el contexto de la segmentación de muestras de lenguaje, es crucial identificar cuándo un hablante abandona un enunciado y comienza uno nuevo, en lugar de simplemente revisarlo. Revisemos esta muestra (min 0:41 - 1:09): https://utexas.box.com/s/tzso6mpcrrszx1l1mrybuupjcdyut590

Ejemplo:

*PAR: uh veo también el [/] el [/] <el &+tra> [//] el [/] ay el &+ca. (FORMA CORRECTA)
*PAR: no [/] no camión no es eso. (FORMA CORRECTA)

En lugar de:

*PAR: uh veo también el [/] el [/] <el &+tra> [//] el [/] <ay el &+ca> [//] no [/] no camión no es eso. (FORMA INCORRECTA)

Podemos ver que el hablante intenta formular un enunciado, pero lo abandona después de múltiples revisiones ("el [/] el [/] <el &+tra> [//] el [/] ay el &+ca."). El abandono del enunciado se marca por la interrupción abrupta y la incapacidad del hablante para completar la idea inicial. Luego, el hablante inicia un nuevo enunciado con "no [/] no camión no es eso," lo cual refleja un cambio de enfoque para comunicar una idea. Por lo tanto, estos dos enunciados se segmentan como enunciados separados.

El siguiente ejemplo explica la misma idea a pesar de que no contiene un verbo principal en la segunda utterance (se encuentra implícito):

*PAR: detrás hays [: hay] [//] <hay un monte> [//] hay un. (FORMA CORRECTA)
*PAR: no, monte no. (FORMA CORRECTA)

 

Cuando un hablante abandona en enunciado, introduce un pensamiento distinto y luego regresa al tema original, no se segmentará, ya que la idea principal sigue conectada. En estos casos, se deben añadir códigos de revisión que cubra la interrupción (color verde en el ejemplo). Por ejemplo:

 

*PAR: detrás hays [: hay] [//] <hay un monte> [//] <hay un> [//] <no, monte no> [//] hay un lago. (FORMA CORRECTA)

*PAR: detrás hays [: hay] [//] <hay un monte> [//] hay un. (FORMA INCORRECTA)
*PAR: no, monte no. (FORMA INCORRECTA)
*PAR: hay un lago. (FORMA INCORRECTA)

 

Otro ejemplo:

*PAR: es un dibujo en la que se ve mm una [//] <un &+gent> [//] un [//] mm eh <vamos a ver> [//] mm en la que se ve un sitio que es como si fuera un campo. (FORMA CORRECTA)

*PAR: es un dibujo en la que se ve mm una [//] <un &+gent> [//] un mm eh. (FORMA INCORRECTA)

*PAR: vamos a ver. (FORMA INCORRECTA)

*PAR: mm en la que se ve un sitio que es como si fuera un campo. (FORMA INCORRECTA)

(decisión añadida el 2 de septiembre, 2024)

 

7. Regla de Enunciados Largos 

En la segmentación de enunciados, es crucial aplicar las reglas de forma rigurosa, especialmente cuando nos enfrentamos a enunciados largos que podrían llevar a confusiones. Tomemos el siguiente ejemplo (Min 2:10): https://utexas.box.com/s/tzso6mpcrrszx1l1mrybuupjcdyut590

 

Ejemplo:

*PAR: <una &+ca> [//] un [//] también veo un [//] una bandera y un perro con el señor que tiene el cometa mm en sus manos &+l liado <con un> [/] mm con un cable. (FORMA CORRECTA)

Aunque este enunciado es extenso y presenta varias revisiones, no debe ser dividido en dos enunciados separados. La razón es que el hablante está construyendo un único enunciado donde menciona una lista de objetos (una bandera y un perro) con descriptores adicionales ("con el señor que tiene el cometa..."). A pesar de que es un enunciado largo y tiene la palabra "y" en la mitad, todo se refiere a un solo objeto directo. Qué es lo que veo? "una bandera y un perro con el señor..."

 

*PAR: <una &+ca> [//] un [//] también veo un [//] una bandera. (FORMA INCORRECTA)

*PAR:  y un perro con el señor que tiene el cometa mm en sus manos &+l liado <con un> [/] mm con un cable. (FORMA INCORRECTA)

Separar el enunciado podría dar la impresión de que el hablante está cambiando de tema o comenzando un nuevo enunciado, cuando en realidad, es una descripción continua de una escena con múltiples elementos.

(decisión añadida el 2 de septiembre, 2024)

 

8. Regla de "que" o "uno de los cuales

Cuando segmentamos enunciados, es importante mantener juntas las partes que explican o añaden información al enunciado anterior.

Ejemplo:

*PAR: y en el mar se ve una barca o sí con una pareja, uno de los cuales nos está saludando. (FORMA CORRECTA)

 

*PAR: y en el mar se ve una barca o sí con una pareja. (FORMA INCORRECTA)

*PAR: uno de los cuales nos está saludando. (FORMA INCORRECTA)

 

La parte "uno de los cuales nos está saludando" está proporcionando una explicación o un detalle adicional sobre "una pareja". Esta información es una aclaración directa del enunciado anterior, y por lo tanto, debe permanecer unida para mantener la coherencia del mensaje. También aplicaríamos la misma regla si el mensaje tuviera la palabra "que":

*PAR: y en el mar se ve una barca o sí con una pareja que nos está saludando. (FORMA CORRECTA)

(decisión añadida el 2 de septiembre, 2024)

 

9. Regla de la Frase "Por lo Tanto" o “Entonces”

La expresión "por lo tanto" indica consecuencia y hace parte de las oraciones consecutivas. Por esta razón, este tipo de oraciones siempre serán expresiones subordinadas. Esto significa que una oración que empiece con "por lo tanto" debe ser parte de una conjunción coordinante (coordinating conjunction) y no puede segmentarse aparte de su idea principal.  

Ejemplo:

*PAR: se ve agua, por lo tanto, es el mar. (FORMA CORRECTA)

En lugar de:

*PAR: se ve agua. (FORMA INCORRECTA)
*PAR: por lo tanto, es el mar. (FORMA INCORRECTA)

La misma regla aplica con la palabra "entonces." Minuto 1:05: https://utexas.box.com/s/keuwo75f2wodptg3ey4tt57jn9aer1ho

*PAR: les platico de mis problemas que no puedo hablar bien, entons [: entonces] ellas me apoyan. (FORMA CORRECTA)

En lugar de: 

*PAR: les platico de mis problemas que no puedo hablar bien. (FORMA INCORRECTA)
*PAR: entons [: entonces] ellas me apoyan. (FORMA INCORRECTA)
Puede ayudar sustituir la palabra "entonces" por "por eso" para ver si los dos enunciados siguen relacionados.